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ليزا تاغليفيري وآخرون 


يحاول هذا الكتاب تزويد مطوري اليوم وغدا بأدوات يمكنهم استخدامها لفهم التعلم الآلي 
وتقييمه وتشكيله بشكل أفضل. 

سيقوم بإعداد بيئة برمجة بايثون إذا لم يكن لديك واحدة بالفعل. ثم يزودك بفهم تصوري 
للتعلم الالي‌ني الفصل "مقدمة إلى التعلم الآلي". فيما يلي ثلاثة مشاريع لتعلم آلة بايثون. سوف 
يساعدونكني إنشاء مصنف للتعلم JW‏ وبناء شبكة عصبية للتعرف على الأرقام المكتوبة بخط 
اليد. وإعطائك خلفيةني التعلم المعزز العميق من خلال بناء بوت ل Atari‏ 

إذا كنت تعرف بعض لغة بايثون وتريد استخدام التعلم الآلي والتعلم العميق. فاختر هذا 
الكتاب. سواء كنت تريد البدء من نقطة الصفر أو توسيع معرفتك بالتعلم الالي فهذا مورد 
أساسي. 

کتب هذا الكتاب للمطورين وعلماء البيانات الذين يرغبونفي إنشاء تعلم آلي عملي وكود 
التعلم العمیق. وهو مثالي CY‏ شخص يرغبفي تعليم أجهزة الكمبيوتر كيفية التعلم من البيانات. 


د. علاء طعيمة 


كلية علوم الحاسوب وتكنولوجيا المعلومات 
جامعة القادسية 


العراق 


مقدمة اواو المع ولاه ذو جه اوناك ا و ع جرخ کلم او ام ل Deana REKE‏ 
كتب آخر ى في هذه السلسلة T A E E E E T‏ 

إعداد بيثة برمجة بايثون 778 |[ ات 
المتطلبات الأساسية e en EE E‏ 

الخطوة1 - تثبيت بايثون 3 Se SS OS OE A‏ 
الخطوة 2 - تثبيت eS SS A pip‏ 
الخطوة 3 - انشاء بيئة افتراضية 000 
الخطوة 4 - clu‏ برنامج Da ste 1 "World Hello”‏ وه ات 12 
الاستنتاج LIne ee ea es‏ 
مقدمة لتعلم الآلة SERE‏ ام ویو یو ون هی و کی و E E‏ یود ماب 5 
طرق التعلم الآلي E E sevanevarertaceie‏ باه موه TSA‏ 
التعلم الخاضع للإشراف TOs‏ 
التعلم غير الخاضع للاشراف LO E EE E‏ 

الانساليب DV SD O ui-tusesateavegautes EE A enact‏ 
۷- أقرب جار و SSR eS‏ نع 117 
تعلم شجرة القرار akeceee‏ ا ل رو ار 1 
التعلم العميق retry treereree‏ ل و ا 2O‏ 
التحيزات البشرية DLS aeeececsvasa 1aisatachaswaaananieses Sent es‏ 

الاستنتاج ptebeve‏ و aaa Ra Raa‏ وم :2 22 
كيفية بناء مصنف للتعلم JU‏ في بایئون باستخدام Scikit-Learn‏ و دی و DA‏ 
المتطلبات الأساسية اح الم م ل o a EA E E‏ 
الخطوة 1 - استيراد AUER DARE Scikit-Learn‏ 
الخطوة 2 - استيراد مجموعة بيانات DI Scikit-Learn‏ 
الخطوة 3 - تنظيم البیانات في مجموعات acter eeneseuvs Giese‏ 27 
الخطوة 4 - بناء النموذج وتقييمه deters‏ ی وم مه و DB EAN E‏ 


DI S AE eigo Ul asa الخطوة 5 - تقييم‎ 


الاستنتاج ل موی کوک Rae‏ وخ و SDR‏ 
كيفية بناء شبكة عصبية للتعرف على الأرقام المكتوبة بخط اليد باستخدام TensorFlow‏ 
EE OVE E SS SE‏ كوه 16 ام و با ی موی ااه موی SU‏ 

المتطلبات الأساسية a‏ 23210000( 

الخطوة 1 - اعداد المشروع P E A A E EEEE‏ 3 
الخطوة 2 - استيراد مجموعة بيانات SB E ET MNIST‏ 
الخطوة 3 - تحديد بنيق الشبكة العصبية Veh‏ 
الخطوة 4 - بناء الرسم البياني J‏ ۲6050۲۴۱۵۷ و 
الخطوة 5 - التدريب والاختبار 1 1 1[ 1[ 11011 

الاستنتاج AB E‏ 
التحيز-التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ باستخدام OpenAI Gym‏ 
و E‏ ی Seha‏ مه و هه هم EEK‏ دنه موی( 

| ed EE E PR eee O eT ee eT المتطلبات الأساسية‎ 

الخطوة 1 - إنشاء المشروع وتثبيت التبعيات انان A‏ 51 
الخطوة 2 - إنشاء وكيل عشوائي أساسي باستخدام SE ne oe Gym‏ 

Ae ee anne a en ne en ee فهم التعلم المعزز‎ 
Ol Frozen Lake J بسيط‎ Q-Learning الخطوة 3 - إنشاء عامل‎ 
IA Frozen Lake J العميق‎ Q-Learning عامل‎ clu - 4 الخطوة‎ 

فهم موازنات التحيز -التباين EA A A T E‏ 3 
الخطوة 5 - clu‏ وكيل المربعات الصغرى ل Frozen Lake‏ عمل Silesia‏ 
الخطوة 6 - إنشاء عامل Q-Learning‏ عميق لغزاة الفضاء As‏ 


الاستنتاج 1ب بببب0000 ا زا ا 11# 


الفصل الاول: مقدمة | O‏ 
نظرًا لزيادة الاستفادة من التعلم الآليني العثور على الأنماط وإجراء التحليل واتخاذ القرارات 
دون مدخلات نهائية من البشر فمن الأهمية بمكان توفير الموارد ليس فقط لتطوير الخوارزميات 
والمنهجیات. ولكن Cal‏ الاستثمارني جذب المزيد من أصحاب المصلحة إلى هذا المجال. 
يحاول كتاب مشاريع Basel‏ التعلم الآلي أن يفعل ذلك GLS‏ لتزويد مطوري اليوم والغد 
بأدوات يمكنهم استخدامها لفهم التعلم الآلي وتقييمه وتشكيله بشكل أفضل للمساعدةفي ضمان 
أنه يخدمنا جميعًا. 
سیعد لك هذا الكتاب بيئة برمجة بايثون إذا لم يكن لديك واحدة بالفعل. ثم يزودك بفهم تصوري 
للتعلم الآليني الفصل "مقدمة إلى التعلم الآلي". فيما يلي ثلاثة مشاريع لتعلم آلة بايثون. سوف 
يساعدونكفي إنشاء فصل دراسي للتعلم الالي وبناء شبكة عصبية للتعرف على الأرقام المكتوبة 
بخط اليد واعطائك خلفيةني التعلم المعزز العميق من خلال بناء بوت ل Atari‏ 
ظهرت هذه الفصولفي الأصل كمقالات عن مجتمع DigitalOcean‏ كتبها أعضاء من مجتمع 
مطوري البرامج الدولي. إذاكنت مهتم بالمساهمةفي قاعدة المعرفة هذه ففكرفي اقتراح برنامج 
تعليمي لبرنامج Write for DOnations‏ على .do.co/w4do‏ تقدم DigitalOcean‏ الدفع 
للمؤلفين وتوفر تبرعًا مطابقا لغير العاملينني المجال التقني. 

i‏ كتب gyal‏ في هذه | لسلسلة 

إذا كنت تتعلم لغة بايثون أو تبحث عن مواد مرجعية. فيمكنك تنزيل کتاب بايثون الإلكتروني 
المجاني. 3 How To Code in Python‏ والذي يتوفر عبر -do.co/python-book‏ 
بالنسبة إلى لغات البرمجة الأخرى ومقالات هندسة DevOps‏ تتوفر قاعدة معارفنا التي تضم 
أكثر من 2100 برنامج تعليمي كمورد مرخص من Creative-Commons‏ عبر 
.do.co/tutorials‏ 


الفصل الثاني: إعداد dy‏ برمجة بایئون 


إعداد diy‏ برمجة بايثون 
بايثون هى لغة برمجة مرنة ومتعددة الاستخدامات ومناسية للعدید من حالات الاستخدام مع 
نقاط قوةني البرمجة النصية والأتمتة وتحليل البيانات والتعلم الآلي والتطوير الخلفي. تفر لأول 
Gi‏ عام ۰1991 استلهم فريق تطوير بايثون من مجموعة الكوميديا البريطانية Monty‏ 
eY Python‏ لغة برمجة ممتعةفي الاستخدام. بايثون 3 هي أحدث نسخة من اللغة وتعتبر 
سيساعدك هذا البرنامج التعليميفي إعداد الخادم البعيد أو الكمبيوتر المحلي مع بيئة برمجة بايثون 
3. إذاكان لديك بايثون 3 مثبنًا بالفعل» Ee‏ إلى جنب مع evenvy pip‏ فلا تترددفي الانتقال إلى 
الفصل التالى! 
المتطلبات الأساسية 
سيعتمد هذا البرنامج التعليمي على العمل مع نظام Linux‏ أو نظام يشبه Unix (* nix)‏ 
واستخدام سطر آوامر أو بيئة طرفية. يجب أن يكون كل من macOS‏ وبرنامج PowerShell‏ 
الخاص بنظام Windows‏ قادرين على تحقيق نتائج مماثلة. 
الخطوة1 - تثبيت بايثون 3 
تأتى العديد من أنظمة التشغيل مثبت عليها بايثون 3 بالفعل. يمكنك التحقق لمعرفة ما إذاكان 
لديك بايثون 3 مثبتا عن طريق فتح نافذة طرفية وكتابة ما يلي: 
python3 -V‏ 
ستتلقى مخرجاتفي نافذة التيرمينال ستعلمك برقم الإصدار. بينما قد يختلف هذا الرقم» سيكون 
الإخراج مشابهًا لما يلي: 
Output‏ 
Python 3.7.2‏ 
إذا تلقيت مخرجات بديلة» فيمكنك التنقلفي متصفح الويب إلى python. org‏ لتنزيل بايثون 3 
وتثبيته على جهازك باتباع الإرشادات. 
بمجرد أن تتمكن من كتابة الأمر python3 -V‏ أعلاه وتلقي الإخراج الذي يوضح رقم 
إصدار بايثون لجهاز الكمبيوتر الخاص بك. فأنت جاهز للمتابعة. 
الخطوة 2 - تثبيت pip‏ 
لإدارة حزم البرامج الخاصة ببایون. فلنقم بتثبيت PIP‏ وهي أداة ستقوم بتثبیت وإدارة حزم 
البرمجة التي قد نرغبفي استخدامهاني مشاريع التطوير الخاصة بنا. 


مشاريع تعلم الآلة: باینون 


إذا قمت بتنزيل بايثون من python. org‏ فيجب أن يكون لديك Cte pip‏ بالفعل. إذا كنت 
تستخدم خادم Ubuntu‏ أو Debian‏ أو کمبیوتر فيمكنك تنزيل pip‏ عن طريق LES‏ ما يلي: 
pip3 install package name‏ 

هناء يمكن أن يشير اسم package name‏ إلى أي حزمة أو مكتبة ub‏ مثل Django‏ 
لتطوير الويب أو NumPy‏ للحوسبة العلمية. لذلك إذاكنت ترغبفي تثبيت NumPy‏ فيمكنك 
القيام بذلك باستخدام الأمر pip3‏ 

install numpy. 
هناك عدد قليل من الحزم وأدوات التطوير التي يجب تثبيتها للتأكد من أن لدينا إعدادًا قويًا لبيئة‎ 
البرمجة لدینا:‎ 


sudo apt install build-essential libssl-dev libffi- 
dev python3-dev 


بمجرد إعداد بايثون pips‏ والأدوات الأخرى. يمكننا إعداد بيئة افتراضية لمشاريعنا التطويرية. 

الخطوة 3 - إنشاء بيثة افتراضية 

تمکنك البيئات الافتراضية من الحصول على مساحة معزولة على خادمك لمشاريع بايثونء مما 
يضمن أن كل مشروع من مشاريعك يمكن أن يكون له مجموعة التبعيات الخاصة به والتي لن 
تعطل ce GF‏ مشاريعك الأخرى. 

يوفر لنا إعداد بيئة البرمجة تحكمًا GST‏ مشاريع بايثون الخاصة بنا وكيفية التعامل مع 
الإصدارات المختلفة من الحزم. هذا مهم بشكل خاص عند العمل مع حزم الطرف الثالث. 
يمكنك إعداد أي عدد تريده من بيئات برمجة بايثون. كل بيئة هىفي الأساس دليل أو مجلد على 
الخادم الخاص بك يحتوي على بعض السكريبتات فيه لجعله يعمل كبيئة. 

بينما توجد عدة طرق لتحقيق بيئة برمجةفي بایشون. سنستخدم وحدة veny‏ هناء والتي تعد جزءًا 
من مكتبة بايثون 3 القياسية. 

إذا قمت بتثبيت بايثون من خلال برنامج التثبيت المتاح من python- org‏ فيجب أن يكون 
لديك Kale venv‏ للعمل. 

لتثبيت dvenv‏ خادم أو جهاز Ubuntu‏ أو Debian‏ يمكنك تثبيته باستخدام ما يلي: 


sudo apt install -y python3-venv 


الفصل الثاني: إعداد بيثة برمجة بایئون 


مع تثبيت veny‏ يمكننا الآن إنشاء بيئات. دعنا إما نختار الدليل الذي نرغبفي وضع les‏ 
برمجة بايثون فیه» أو ننشئ دلیلا جدیدا باستخدام mkdir‏ كمافي: 
mkdir environments‏ 
cd environments‏ 
بمجرد أن تکون‌ني الدليل حيث تريد أن تعيش البیتات. يمكنك إنشاء بيئة. يجب عليك استخدام 
إصدار بايثون المثبت على جهازك باعتباره الجزء الأول من الأمر (الإخراج الذي تلقيته عند كتابة 
(python -V‏ إذاكان هذا الإصدار هو3 . 6 . 3 Python‏ فيمكنك كتابة ما يلى: 
python3.6 =m veny my env‏ 
بدلاً من ذلك. إذا تم تثبيت 3 . 7 . 3 Python‏ على جهاز الكمبيوترء فاستخدم الأمر التالي: 
python3.7 =m veny my env‏ 
قد تسمح لك أجهزة ULL Windows‏ رقم الإصدار بالكامل: 
python -m venv my env‏ 
بمجرد تشغيل الأمر المناسب» يمكنك التحقق من استمرار إعداد البيئة. 
بشكل أساسي. pyveny gi‏ دلیلا جدیدا يحتوي على بعض العناصر التي یمکننا عرضها 
باستخدام الأمر 15: 
my_env‏ 5 1 
Output‏ 
bin include lib 1ib64 pyvenv.cfg share‏ 
تعمل هذه الميزات معًا للتأكد من عزل مشاريعك عن السياق الأوسع لآلتك المحليةء بحيث لا 
تختلط بين أنظمة النظام والمشروع. هذه ممارسة جيدة للتحكمني الاصدار وللتأكد من أن كل 
مشروع من مشاريعك لديه حق الوصول إلى الحزم المعينة التي يحتاجها. سيكون Python‏ 
تقليل عدد المرات التي تحتاج فيها إلى الترجمةءفي دليل -Ubuntu 18.04 share‏ 
لاستخدام هذه البيئةء تحتاج إلى تنشيطهاء وهو ما يمكنك تحقيقه عن طريق كتابة الأمر التالي 
الذي یستدعی سكربت التنشيط: 


source my_env/bin/activate 


مشاريع تعلم الآلة: بايثون 


سيتم الآن تحديد موجه الأوامر الخاص بك مسبقا باسم بيتتك. وفى هذه الحالة يطلق عليه 


111_۷. اعتمادا على الاصدار Debian Linux‏ الذي تقوم بتشغیله قد يظهر مسبقك بشكل 


مختلف إلى حد ما. ولكن يجب أن يكون اسم بيئتك بين قوسين هو الشيء الأول الذي تراه على 
خطك: 


((my_env) sammy@sammy:~/environments$ 

يتيح W‏ هذا الإصدار المسبق معرفة أن البيئة my_env‏ نشطة WL‏ مما يعني أنه عند إنشاء 
برامج هناء فإنها ستستخدم فقط اعدادات وحرم هذه البيئة المعينة. 
ملاحظة:في البيئة الافتراضی. يمكنك استخدام الأمر python‏ بدلاً من pip »s+«python3‏ 
بدلاً من pip3‏ إذا كنت تفضل ذلك. إذا كنت تستخدم بايثون 3 على جهازك خارج بيئة ماء 
فستحتاج إلى استخدام الأمرين python3‏ و 153 محصريًا. 
بعد اتباع هذه الخطوات. تصبح بيئتك الافتراضية جاهزة للاستخدام. 
الخطوة 4 - "World Hello" aoU p clu‏ 
الآن بعد أن تم إعداد بيئتنا الافتراضية فلنقم بإنشاء برنامج “Hello, World!”‏ سيسمح لنا 
هذا باختبار بيئتنا ويوفر لنا الفرصة للتعرف أكثر على بايثون إذا لم نكن كذلك بالفعل. 
للقیام بذلك. سنفتح محرر نص سطر آوامر مثل nano‏ وننشئ ملفاً جدیدا: 

(my env) sammy@sammy:~/environments$ nano 7‏ 
بمجرد أن يفتح النصفي نافذة التيرمينال» سنقوم بكتابة برنامجنا: 

print ) ۲۳6۵110, World!") 

الخروج من Nano‏ عن طريق كتابة مفاتيح Xs CTRL‏ وللحفظ اضغط LY‏ 
بمجرد الخروج من mano‏ والعودة إلى shell‏ الخاص بك. فلنقم بتشغيل البرنامج: 
(my env) sammy@sammy:~/environments$ python hello.py‏ 
يجب أن يتسبب برنامج hello. py‏ الذي أنشأته للتو في قيام التيرمينال الخاص بك بانتاج 
المخرجات التالية: 


Output 
Hello, World! 


لمغادرة البيتة. ما عليك سوى كتابة الأمر deactivate‏ وستعود إلى دليلك الأصلى. 


الفصل الثاني: إعداد بيثة برمجة بایئون 


ات 
في هذه المرحلة. لديك Hy‏ برمجة بايثون 3 تم إعدادها على جهازك ویمکنك OV‏ بدء مشروع 
البرمجة! 


إذاكنت ترغبفي معرفة المزید عن بایثون. AKu‏ تنزیل کتاب Python 3How To Code‏ 
3 الإلكتروني المجاني عبر -do.co/python-book‏ 


الفصل الثالث: مقدمة لتعلم الآلة 


dorado‏ لتعلم الآلة 

التعلم الالي هو مجال فرعي من الذكاء الاصطناعي CAD‏ الهدف من التعلم الالي عمومًا هو 
فهم بنية البیانات وملائمة هذه البياناتفي النماذج التي یمکن فهمها واستخدامها من قبل 
الاشخاص. 


على الرغم من أن التعلم SW‏ هو أحد مجالات علوم الكمبيوتر, الا أنه یختلف عن الاسالیب 
الحسابية التقليدية.ني الحوسبة التقليدية. الخوارزمیات عبارة عن مجموعات من التعلیمات 
المبرمجة بشکل صریح تستخدمها أجهزة الکمبیوتر للحساب أو حل المشکلات. وبدلاً من ذلك 
تسمح خوارزمیات التعلم الالي لأجهزة الکمبیوتر بالتدرب على مدخلات البیانات واستخدام 
التحلیل الاحصائي من أجل إخراج قیم تقع ضمن نطاق محدد. لهذا السبب. يسهل التعلم الالي 
آجهزة الكمبيوترني بناء النماذج من بیانات العينة من أجل آتمتة عملیات صنع القرار Abe‏ على 
مدخلات البیانات. 


استفاد أي مستخدم للتکنولوجیا الیوم من التعلم الالي. تسمح تقنية التعرف على الوجوه لمنصات 
التواصل الاجتماعي بمساعدة المستخدمین على مشاركة صور الأصدقاء. تعمل تقنية التعرف 
البصري على الأحرف (OCR)‏ على تحویل صور النص إلى نوع متحرك. تقترح محرکات 
التوصية. المدعومة بالتعلم SY‏ الافلام أو البرامج التلفزيونية لمشاهدتها بعد ذلك Fy‏ على 
تفضیلات المستخدم. قد تکون السیارات ذاتية القيادة التي تعتمد على التعلم الالي للتنقل متاحة 
قريبًا للمستهلكين. 

التعلم الالي هو مجال يتطور باستمرار. لهذا السبب. هناك بعض الاعتبارات التي يجب وضعها 
في الاعتبار أثناء العمل باستخدام منهجيات التعلم الالي, أو تحليل تأثير عمليات التعلم الآلي. 
في هذا البرنامج التعليمي. سننظرفی أساليب التعلم الآلي الشائعة للتعلم الخاضع للإشراف والتعلم 
غير الخاضع للاشراف. والأساليب الخوارزمية الشائعةني التعلم IM‏ بمافي ذلك خوارزمية -k‏ 
أقرب الجیران. وتعلم شجرة القرار» والتعلم العميق. سنستكشف لغات البرمجة الأكثر استخدامًا 
في التعلم الالي. ونزودك ببعض السمات الإيجابية والسلبية لكل منها. بالإضافة إلى ذلك 
سنناقش التحيزات التي تكرسها خوارزميات التعلم الالي ونأخذفي الاعتبار ما يمكن وضعه‌ني 
الاعتبار لمنع هذه التحيزات عند بناء الخوارزميات. 

طرق التعلم JU‏ 

في التعلم JVI‏ تُصنف المهام عمومًا إلى فتات واسعة. تستند هذه الفئات إلى كيفية تلقي التعلم 
أوكيفية تقديم الملاحظات على التعلم إلى النظام الذي تم تطويره. 
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هناك طريقتان من أكثر طرق التعلم الآلي التي يتم تبنيها على نطاق واسع وهما التعلم الخاضع 
للإشراف والذي يقوم بتدريب الخوارزميات Fy‏ على بيانات المدخلات والمخرجات التي 
يصنفها البشرء والتعلم غير الخاضع للإشراف الذي يوفر الخوارزمية بدون بيانات معنونة من أجل 
السماح لها بإيجاد بنية ضمن مدخلاتها بيانات. دعونا نستكشف هذه الأساليب بمزيد من 
التفصيل. 

التعلم الخاضع للإشراف 

في التعلم الخاضع للاشراف. يتم تزويد الكمبيوتر بأمثلة على المدخلات التي تم تصنيفها 
بالمخرجات المرغوبة. الغرض من هذه الطريقة هو أن تكون الخوارزمية قادرة على "التعلم" من 
خلال مقارنة ناتجها الفعلي مع المخرجات "المَدرّسة" بالآخطاء الثانيةء وتعديل النموذج Giy‏ 
لذلك. لذلك يستخدم التعلم الخاضع للإشراف آنماطا للتنبؤ بقيم التسمية على البيانات الإضافية 
غير المسماة. 


على سبيل المثال. من خلال التعلم الخاضع لاجشراف. قد يتم تغذية خوارزمية بالبيانات بصور 
لأسماك القرش المصنفة على أنها أسماك وصور للمحيطات التي تم تصنيفها على أنها مياه. من 
خلال التدريب على هذه البيانات» يجب أن تكون خوارزمية التعلم الخاضعة للإشراف قادرة 
Ge‏ على تحديد صور أسماك القرش غير المسماة على أنها أسماك وصور المحيطات غير 
المسماة على أنها مياه. 

من حالات الاستخدام الشائع للتعلم الخاضع للإشراف استخدام البيانات التاريخية للتنبؤ 
بالأحداث المستقبلية المحتملة إحصائيًا. قد تستخدم معلومات سوق الأوراق المالية التاريخية 
لتوقع التغيرات القادمة. أو يتم توظيفها لترشيح رسائل البريد الإلكتروني العشوائية.في التعلم 
الخاضع للاشراف. يمكن استخدام صور الکلاب المعلمة كبيانات إدخال لتصنيف الصور غير 
المعلمة للكلاب. 

التعلم غير الخاضع للاشراف 

في التعلم غير الخاضع للاشراف. لا يتم تصنيف البیانات. لذلك تترك خوارزمية التعلم لتجد 
القواسم المشتركة بين بيانات الإدخال الخاصة بها. نظرًا لآن البيانات غير المصنفة أكثر وفرة من 
البيانات المصنفة. فإن طرق التعلم الآلي التي تسهل التعلم غير الخاضع للإشراف تعتبر ذات 
قيمة خاصة. 

قد يكون هدف التعلم غير الخاضع للإشراف مباشرًا مثل اكتشاف الأنماط المخفية داخل 
مجموعة البیانات. ولكن قد يكون Cal‏ هدفا لتعلم المیزات» والذي يسمح للآلة الحسابية 
باكتشاف التمثيلات المطلوبة GU‏ لتصنيف البيانات الأولية. 
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يشيع استخدام التعلم غير الخاضع للإشراف لبيانات المعاملات. قد يكون لديك مجموعة بيانات 
كبيرة من العملاء ومشترياتهم. ولكن LUST‏ من المحتمل ألا تكون قادرّا على فهم السمات 
المماثلة التي يمكن استخلاصها من عروض العملاء وأنواع مشترياتهم. من خلال إدخال هذه 
البياناتفي خوارزمية تعلم غير خاضعة للإشراف. يمكن تحديد أن النساءفي فئة عمرية معينة اللائي 
يشترون الصابون غير المعطر من المرجح أن يكونوا She‏ وبالتالي يمكن استهداف حملة 
تسويقية متعلقة بالحمل ومنتجات الأطفال لهذا الجمهور بالترتيب لزيادة عدد مشترياتهم. 

دون أن يتم إخبارنا بإجابة "صحيحة". يمكن لأساليب التعلم غير الخاضعة للاشراف أن تنظرفي 
البيانات المعقدة الأكثر توسعية والتى تبدو غير ذات صلة من أجل تنظيمها بطرق يحتمل أن 
تكون ذات مغزى. غالبا ما يتم استخدام التعلم غير الخاضع للإشراف لاكتشاف الحالات الشاذة 
Gly‏ ذلك عمليات الشراء الاحتيالية باستخدام بطاقات الائتمان وأنظمة التوصية التي توصي 
بالمنتجات التي يجب شراؤها بعد ذلك.في التعلم غير الخاضع SLAW‏ يمكن استخدام الصور 
غير المعلمة للكلاب كبيانات إدخال للخوارزمية للعثور على تشابه وتصنيف صور الكلاب معا. 
الاسالیب 

کحقل. پرتبط التعلم الالي ارتباطًا Gis‏ بالإحصاءات الحسابية. لذا فان امتلاك معرفة أساسيةفي 
الاحصاء مفيد لفهم خوارزمیات التعلم الآلي والاستفادة منها. 

بالنسبة لأولئك الذین لم يدرسوا الاحصاء. قد یکون من المفید تحدید الارتباط correlation‏ 
والانحدار regression‏ لأول مرق. حيث إنهما تقنیات شائعة الاستخدام لفحص العلاقة بين 
المتغیرات الکمية. الارتباط هو مقیاس للارتباط بين متغیرین لم يتم تحدیدهما على آنهما تابعان 
أو مستقلان. یستخدم الانحدار عند المستوی الاساسي لفحص العلاقة بين متغير تابع واحد 
ومتغیر مستقل واحد. نظرا GY‏ يمكن استخدام إحصائيات الانحدار لتوقع المتغیر التابع عندما 
یکون المتغیر المستقل معروفا. فإن الانحدار یتیح إمكانات التنبو. 

يتم تطوير مناهج التعلم الالي باستمرار. لأغراضناء سنستعرض بعض الأساليب الشائعة التي يتم 
استخدامهاني التعلم الالي وقت كتابة هذا الکتاب. 


-k‏ آقرب جار 

تعد خوارزمية ع1 أقرب جار k-nearest neighbor‏ نموذجا للتعرف على الأنماط يمكن 
استخدامه‌ي التصنیف وکذلك الانحدار. غالبًا ما يتم اختصارها ک k dk ob ۰ ۷- NN‏ قرب 
جار هو عدد صحیح موجب. والذي یکون عادة صغيرًا.ني أي من التصنیف أو الانحدا ستتألف 
المدخلات من أمثلة التدریب الاقرب ل 1 داخل مساحة. 
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سوف نركز على تصنيف G.k- NN‏ هذه الطريقة. يكون الإخراج هو عضوية فئة. سيؤدي هذا إلى 
تعيين كائن جديد BAU‏ الأكثر شيوعًا بين جيرانها الأقرب.في حالة 1 = ck‏ يتم تخصيص الكائن 
لفتة أقرب جار منفرد. 

دعونا نلقي نظرة على مثال 16- الجار الأقرب.في الرسم البياني آدناه. توجد كائنات ماسية زرقاء 
وأجسام ذات نجمة برتقالية. تنتمي هذه إلى فتتین منفصلتين: فئة الماس وفتة النجوم. 


>1- أقرب جار مجموعة البيانات الأولية 


عند إضافة كائن جديد إلى الفضاء في هذه الحالة قلب أخضر ‏ سنريد من خوارزمية التعلم 
الآلى أن تصنف القلب إلى فئة معينة. 


مجموعة بيانات k‏ الجار الأقرب مع كائن جديد لتصنيفه 
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عندما نختار 3 = ck‏ سوف تجد الخوارزمية أقرب ثلاثة جيران للقلب الأخضر من أجل تصنيفها 

إما إلى فئة الماس أو فئة النجوم. 

في الرسم البياني لديناء أقرب ثلاثة جيران للقلب الأخضر هم ماسة واحدة ونجمتان. لذلك. 
تصنف الخوارزمية القلب بفئة النجوم. 


مجموعة بيانات 16- الجار الأقرب مع اكتمال التصنيف 
من بين أبسط خوارزميات التعلم الآلي؛ يعتبر 1- أقرب جار Eg‏ من "التعلم الكسول" حيث لا 
تعلم شجرة القرار 
للاستخدام العام. يتم استخدام أشجار القرار Decision Tree‏ لتمثيل القرارات بصريًا وإظهار 
أو ابلاغ عملية صنع القرار. عند العمل مع التعلم الالي واستخراج البیانات يتم استخدام أشجار 
القرار كنموذج تنبؤي. ترسم هذه النماذج الملاحظات حول البيانات إلى استنتاجات حول القيمة 
المستهدفة للبيانات. 
الهدف من تعلم شجرة القرار هو إنشاء نموذج يتنباً بقيمة الهدف Fly‏ على متغيرات الإدخال. 


في النموذج التنبتي. يتم تمثيل سمات البيانات التي يتم تحديدها من خلال الملاحظة بواسطة 
الفروع. بينما يتم تمثيل الاستنتاجات حول القيمة المستهدفة للبياناتفي الأوراق. 
عند "تعلم" شجرة يتم تقسيم بيانات المصدر إلى مجموعات فرعية Fly‏ على اختبار قيمة السمةه 
والذي يتكرر على كل مجموعة فرعية مشتقة بشكل متكرر. بمجرد أن يكون للمجموعة Bie AN‏ 
العقدة القيمة المكافئة للقيمة المستهدفت ستكتمل العملية العودية „recursion‏ 
دعونا نلقى نظرة على مثال لمختلف الحالات التى يمكن أن تحدد ما إذا كان يجب على شخص 
ما أن يذهب أو لا. وهذا يشمل الظروف الجوية وكذلك ظروف الضغط الجوي. 
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Barometric Overcast Rain 


Rising Falling Light baa 


242 Ss 


مثال شجرة القرار 
في شجرة القرار المبسطة آعلاه. تم تصنیف المثال بفرزه عبر الشجرة إلى العقدة الورقية المناسبة. 
ثم يعيد هذا التصنیف المرتبط بورقة معينةء وهوفي هذه الحالة اما نعم أو لا. تصنف الشجرة 
ظروف الیوم بناء على ما إذا كانت مناسبة للتنزه pl‏ لا 
قد تحتوي مجموعة ObL‏ شجرة التصنیف الحقيقية على میزات آکثر بکثیر مما تم توضیحه 
آعلاه. ولکن يجب أن تکون العلاقات مباشرة لتحدیدها. عند العمل مع تعلم شجرة القراره يجب 
إجراء العدید من التحدیدات. بمافي ذلك المیزات التي يجب اختيارهاء والشروط التي يجب 
استخدامها للتقسیم. وفهم متى تصل شجرة القرار إلى نهاية واضحة. 
التعلم العميق 
يحاول التعلم العميق Deep Learning‏ تقليد كيف يمكن للدماغ البشري معالجة محفزات 
الضوء والصوتفي الرؤية والسمع. بنية التعلم العميق مستوحاة من الشبكات العصبية البيولوجية 
وتتكون من طبقات متعددةفي شبكة عصبية صناعية مكونة من أجهزة ووحدات معالجة رسومات. 
يستخدم التعلم العميق سلسلة من طبقات وحدة المعالجة غير الخطية لاستخراج أو تحويل 
ميزات (آو تمثیلات) البيانات. يعمل إخراج طبقة واحدة كمدخل للطبقة المتتالية.في التعلم 
العمیق. يمكن أن تخضع الخوارزميات للإشراف وتعمل على تصنيف البیانات أو بدون إشراف 
وإجراء تحليل النمط. 
من بين خوارزميات التعلم الآلي التي يتم استخدامها وتطويرها GIL‏ يمتص التعلم العميق معظم 
البیانات وتمكن من التغلب على البشرفي بعض المهام المعرفية. بسبب هذه السمات أصبح 
التعلم العميق هو النهج الذي ينطوي على إمكانات كبيرةفي فضاء الذكاء الاصطناعي 
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لقد حقق كل من الرؤية الحاسوبية والتعرف على الكلام تطورات مهمة من مناهج التعلم العميق. 
يعد IBM Watson‏ مثالًا معروفًا على النظام الذي يستفيد من التعلم العميق. 

التحيزات البشرية 

على الرغم من أن البیانات والتحليلات الحسابية قد تجعلنا نعتقد آننا نتلقى معلومات موضوعيةء 
إلا أن هذا ليس هو الحال؛ الاستناد إلى البيانات لا يعني أن مخرجات التعلم الآلي محايدة. يلعب 
التحيز البشري Human Biase‏ دوراني كيفية جمع البيانات وتنظيمها وفي BLL‏ 
الخوارزميات التي تحدد كيفية تفاعل التعلم الآلي مع تلك البيانات. 

على سبيل المثال إذا كان الأشخاص يقدمون صورًا ل "سمكة" كبيانات لتدريب خوارزمیق 
واختيار هؤلاء الأشخاص بأغلبية ساحقة من السمك الذهبىء فإن الكمبيوتر قد لا يصنف سمكة 
قرش على أنها سمكة. هذا من شأنه أن يخلق تحيرًا ضد أسماك القرش كسمكة. ولن يتم احتساب 
أسماك القرش على أنها سمكة. 

عند استخدام الصور التاريخية للعلماء كبيانات تدريبية» قد لا يصنف الكمبيوتر العلماء الملونين 
أو النساء بشكل صحيح.في الواقع» أشارت الأبحاث الحديثة التى تمت مراجعتها من قبل الأقران 
إلى أن برامج الذكاء الاصطناعي والتعلم الآلي تظهر تحيزات شبيهة بالإنسان تشمل التحيزات 
العرقية والجنسية. راجع. على سبيل المثالء "الدلالات المشتقة تلقائيًا من مجموعات اللغة 
تحتوي على تحيزات شبيهة بالانسان" و "الرجال يحبون التسوق أيضًا: تقليل تضخيم التحيز 
الجنسی باستخدام قيود على مستوى المجموعة" [PDF]‏ 

نظرًا لتزايد الاستفادة من التعلم الآليني الأعمال التجارية. يمكن للتحيزات غير المعلنة أن تديم 
المشكلات المنهجية التي قد تمنع الأشخاص من التأهل للحصول على قروض. أو من عرض 
إعلانات لفرص عمل عالية الأجرء أو من تلقي خيارات التسليمفي نفس اليوم. 

نظرًا OY‏ التحيز البشري يمكن أن يؤثر سلبّا على الاخرین فمن المهم للغاية أن تكون على دراية 
به» وآن تعمل أيضًا على القضاء عليه قدر الإمكان. تتمثل إحدى طرق العمل نحو تحقيق GUUS‏ 
ضمان وجود أشخاص متنوعين يعملونفي مشروع ما وأن الأشخاص المتنوعين يقومون باختباره 
بديلة يمكنها اكتشاف التحیزات. ومراجعات الأخلاقيات كجزء من تخطيط مشروع علم 
البيانات. يمكن أن تعمل زيادة الوعى حول التحيزات, ومراعاة التحيزات اللاواعية لديناء وهيكلة 
العدالةفي مشاريع التعلم SY‏ وخطوط الأنابيب لدينا على مكافحة التحيزني هذا المجال. 
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Aiea 
استعرض هذا البرنامج التعليمي بعض حالات استخدام التعلم الالي» والطرق الشائعة والأساليب‎ 
الشائعة المستخدمةفي هذا المجال. ولغات برمجة التعلم الآلي المناسبة. كما تناول بعض الأشياء‎ 
التي يجب وضعهاني الاعتبار من حيث التحيزات اللاواعية التي يتم تكرارهافي الخوارزميات.‎ 
التعلم الالي مجال يتم ابتكاره باستمرار فمن المهم أن تضعفي اعتبارك أن الخوارزميات‎ oY نظرًا‎ 
والأساليب والنهج ستستمرفي التغيير.‎ 

تعد بايثون حاليًا واحدة من أكثر لغات البرمجة شيوعا للاستخدام مع تطبيقات التعلم الآليفي 
المجالات المهنية. 


مشاريع تعلمم الآلة: باینون 


dino clu Gas‏ للتعلم JI‏ فى بایئون باستخدام 
Scikit-Learn‏ 
في هذا البرنامج التعليمي» ستنفذ خوارزمية بسيطة للتعلم الالي‌ني بايثون باستخدام Scikit-Learn‏ 
وهي أداة تعلم آلي لبايثون. باستخدام قاعدة بيانات لمعلومات آورام سرطان الثدي» ستستخدم 
تصنيف نايف بايز Naive Bayes (NB)‏ الذي يتنأ Ly‏ }13 كان الورم É>‏ آم حمیدا أم لا. 
بنهاية هذا البرنامج التعليمي ستعرف LAS‏ بناء نموذج التعلم الآلي الخاص بكفي بايثون. 
المتطلبات الأساسية 
لإكمال هذا البرنامج التعليمي» سنستخدم Jupyter Notebooks‏ وهي طريقة مفيدة وتفاعلية 
لإجراء تجارب التعلم الآلي. باستخدام Jupyter Notebooks‏ يمكنك تشغيل مجموعات قصيرة 
من التعليمات البرمجية والاطلاع على النتائج بسرعة. مما يسهل اختبار التعليمات البرمجية 
وتصحيحها. 
للاستعداد والتشغيل بسرعة. يمكنك فتح مستعرض ويب والانتقال إلى موقع Try Jupyter‏ على 
الویب: jupyter.org/try‏ من هناك انقر فوق «Try Jupyter with Python‏ وسیتم نقلك إلى 
Notebooks Jupyter‏ تفاعلي حيث يمكنك البدءفي كتابة كود بايثون. 
إذا كنت ترغبفي معرفة المزيد حول Jupyter Notebooks‏ وكيفية إعداد Hy‏ برمجة بايثون 
الخاصة بك لاستخدامها مع Jupyter‏ فيمكنك قراءة البرنامج التعليمي الخاص by‏ حول كيفية إعداد 
Jupyter Notebook‏ ل بايثون 3. 
الخطوة 1 - استيراد Scikit-Learn‏ 
لنبدأ بتثبیت وحدة بايثون النمطية Scikit-Learn‏ وهي واحدة من أفضل مكتبات التعلم الآلي 
وأكثرها توثيقاني بايثون. 
لبدء مشروع الترميز الخاص بناء دعنا ننشط By‏ برمجة بايثون 3 الخاصة بنا. تأكد من أنكفي الدليل 
حيث توجد بیئتك. وقم بتشغيل الأمر التالي: 

my env/bin/activate 
مثيتة بالفعل:‎ Scikit-Learn تحقق لمعرفة ما إذاكانت وحدة‎ lod مع تتشيط بيئة اليرمجة‎ 

(my env) $ python -c "import sklearn" 

إذا تم تثبيت sklearn‏ فسیکتمل هذا الأمر بدون أخطاء. إذا لم يتم تثبیته. فسترى رسالة الخطأ 
التالية: 


الفصل الرابع : كيفية بناء مصنف للتعلمم الآلي في بايثون باستخدام Scikit-Learn‏ 


Output 


Traceback (most recent call last): File "<string>", 
line 1, in <module> 


ImportError: No module named 'sklearn' 


تشير رسالة الخطأ إلى أن sklearn‏ غير مثبت. لذا قم بتنزيل المكتبة باستخدام ص1 ط: 
(my env) $ pip install scikit-learn[alldeps]‏ 
بمجرد اكتمال التثبیت. قم بتشغيل ‘Jupyter Notebook‏ 
(my env) $ jupyter notebook‏ 
في Jupyter‏ قم بإنشاء Python Notebook‏ جديد يسمى 3-ML Tutorial‏ الخلية الأولى من 
«Notebook‏ قم باستيراد وحدة sklearn‏ النمطية: 
ML Tutorial‏ 


import sklearn 


يجب أن يبدو 0060001 الخاص بك بالشكل التالي: 


— Jupyter ML Tutorial Last checkpoint: a few seconds ago (autosaved) Logout 
File Edit View Insert Cell Kernel Help Trusted Kernel O 


]5[ + »اج اه عو‎ ۱ 9 6 Code +) [m 
In [l]: import sklearn 

sklearn مع خلية بايثون واحدة » والتي تستورد‎ Jupyter Notebook 
الخاص بنا . یمکننا البدءفي العمل مع مجموعة‎ notebook في‎ sklearn الآن بعد أن تم استيراد‎ 
البيانات الخاصة بنموذج التعلم الالي الخاص بنا.‎ 
Scikit- Learn الخطوة 2 - استيراد مجموعة بيانات‎ 
مجموعة البيانات التى سنعمل معهاني هذا البرنامج التعليمى هى قاعدة بيانات تشخيص سرطان‎ 
تتضمن مجموعة‎ .Breast Cancer Wisconsin Diagnostic Database الثديفي ويسكونسن‎ 
البيانات معلومات متنوعة حول أورام سرطان الثدي بالإضافة إلى تسميات تصنيف الأورام الخبيثة‎ 
أو الحميدة. تحتوي مجموعة البیانات على 569 حالات أو بیانات عن 569 ورمّا وتتضمن معلومات‎ 
مثل نصف قطر الورم والملمس والنعومة والمنطقة.‎ dow عن 30 خاصية أو‎ 
پاستخدام مجموعة البیانات هذه سنبني نموذجا للتعلم الالي لاستخدام معلومات الورم للتنبؤ بما إذا‎ 


مشاريع تعلمم الآلة: باینون 


يأتي Ete Scikit-Leam‏ بمجموعات بيانات مختلفة يمكننا تحميلهاني بايثون. ويتم تضمين 


ML Tutorial 


from sklearn.datasets import load breast cancer 
# Load dataset 
data = load breast cancer () 
مفاتيح القاموس المهمة‎ dictionary کائن بايثون الذي يعمل مثل القاموس‎ data يمثل المتغير‎ 
والتسميات الفعلية‎ (target_names) التي يجب مراعاتها هي أسماء تسميات التصنيف‎ 
(data) والسمات‎ (feature names) الخصائص / السمات‎ aaa (target) 
السمات جزء مهم من أي تصنيف. تلتقط السمات خصائص مهمة حول طبيعة البيانات. بالنظر إلى‎ 
التسمية الذي نحاول التنبؤ به (الورم الخبيث مقابل الورم الحميد). تشمل السمات المفيدة المحتملة‎ 
حجم الورم ونصف قطره وملمسه.‎ 
قم بإنشاء متغيرات جديدة لكل مجموعة مهمة من المعلومات وقم بتعيين البيانات:‎ 


ML Tutorial 


# Organize our data 


label names = data['target_names'] 


labels = data['target'"] 


feature names = data['feature_ ۵765 ۲ [ 

features = data['data'] 

لدينا الآن قوائم lists‏ لكل مجموعة من المعلومات. للحصول على فهم أفضل لمجموعة البيانات 

الخاصة بناء دعنا نلقى نظرة على بياناتنا عن طريق طباعة تسميات الفصول الخاصة بناء وتسمية مثيل 
البيانات الأول. وأسماء الميزات الخاصة بناء وقيم الميزة لمثيل البيانات الأول: 


ML Tutorial 


الفصل gal JI‏ : كيفية بناء مصنف للتعلمم الآلي في بايثون باستخدام Scikit-Learn‏ 


# Look at our data 


print (label names) 


print (labels[0]) 
print (feature names [0]) 


print (features [0] ) 


سترى النتائج التالية إذا قمت بتشغيل الكود: 


In ]3[: # Look at our data 
print(label_names) 
print(labels[0)}) 
print (feature_names[0]) 
print(features[0}) 


{'malignant' ‘benign') 


mean radius 

] 1.79900000e+01 1.03800000e+01 1.22800000e+02 1.00100000e+03 
1.18400000e-01 2.77600000e-01 3.00100000e-01 1.47100000e-01 
2.41900000e-01 7.87100000e-02 1.09500000e+00 9.05300000e-01 
8.58900000e+00 1.53400000e+02 6.39900000e-03 4.90400000e-02 
5.37300000e-02 1.58700000e-02 3.00300000e-02 6.19300000e-03 
2.53800000e+01 1.73300000e+01 1.84600000e+02 2.01900000e+03 
1.62200000e-01 6۰656000006-1 7۰119000006-1 2۰654000006-1 
4۰601000006-1 1.18900000e-01) 


Jupyter Notebook‏ مع ثلاث LOE‏ بايثون . والذي يطبع المثيل الأولفي مجموعة البيانات الخاصة بنا 
كما تظهر الصورة. فإن أسماء الفئات لدینا خبيثة وحميدة, والتي يتم تعيينها بعد ذلك إلى قيم ثنائية 
من 0 و1. حيث يمثل 0 أورامًا خبيثة ويمثل 1 أورامًا حميدة. لذلك. فإن أول مثيل بیاناتنا هو ورم 
خبيث يبلغ متوسط نصف قطره 1۰799000006+01. 
الآن بعد أن تم تحميل بياناتناء یمکننا العمل مع بياناتنا لبناء مصنف للتعلم الآلي. 
الخطوة 3 - تنظيم البيانات في مجموعات 
لتقييم مدى جودة أداء المصنف. يجب دائمًا اختبار النموذج على بيانات غير مرثية. لذلك. قبل إنشاء 
استخدام النموذج المدرب لعمل تنبؤات حول مجموعة الاختبار غير المرئية. يمنحك هذا الأسلوب 
إحساسًا بأداء النموذج وقوته. 
لحسن الحظ sklearn GW‏ دالة تسمى train_test_split()‏ والتي تقسم بياناتك 
إلى هذه المجموعات. استورد الدالة ثم استخدمها لتقسيم البيانات: 


ML Tutorial 


مشاريع تعلمم الآلة: باینون 


from sklearn.model selection import train test split 
# Split our data 


train, test, train labels, test labels = 
train test _split(features, labels, test _size=0.33, 


random state=42) 


تقوم الدالة بتقسيم البيانات بشكل عشوائي باستخدام test_sizedeles‏ .في هذا المثال لدينا 
الآن مجموعة اختبار (Lest)‏ تمثل 133 من مجموعة البيانات الأصلية. ثم تشكل البيانات المتبقية 
(train)‏ بيانات التدريب. لدينا أيضًا التسميات الخاصة JS‏ من متغيرات التدريب / الاختباره 


آي train labels‏ وو 1061 _باوه]. 


یمکننا الآن الانتقال إلى تدریب نموذجنا الأول. 


الخطوق 4 - بناء النموذج وتقييمه 

هناك العدید من النماذج للتعلم JM‏ ولکل نموذج نقاط قوته وضعفه.في هذا البرنامج التعليمي, 
سنركز على خوارزمية بسيطة تؤدي Sale‏ أداءً جیداني مهام التصنیف الثنائيي. وهي Naive Bayes‏ 
.(NB)‏ 


5. GaussianNB )( قم باستيراد وحدة 1321128 5 63115 . ثم قم بتهيتة النموذج بدالة‎ Dsl 
۳ 9 rr كم باستير‎ 


ML Tutorial 


from sklearn.naive bayes import GaussianNB 


# Initialize our classifier 


gnb = GaussianNB )(‏ 
Train our classifier‏ # 
model = gnb.fit(train, train labels)‏ 
بعد أن نقوم بتدريب النموذج» يمكننا بعد ذلك استخدام النموذج المدرب لعمل NGS‏ على 
مجموعة الاختبار الخاصة بناء والتي نقوم بها باستخدام دالة () predict‏ ترجع الدالة 
predict ()‏ مجموعة من التنبؤات لكل مثيل بياناتفي مجموعة الاختبار. یمکننا بعد ذلك 
طباعة تنبواتنا لفهم ما حدده النموذج. 


الفصل gal JI‏ : كيفية بناء مصنف للتعلمم الآلي في بايثون باستخدام Scikit-Learn‏ 


استخدم دالة )( predict‏ مع مجموعة الاختبار واطبع النتائج: 
ML Tutorial‏ 


# Make predictions 


preds = gnb.predict(test) print (preds) 


قم بتشغيا الكود وسترى النتائج التالية: 


7 4nitiaiize our ciassirier 
gnb = GaussianNB() 


# Train our classifier 
model = gnb.fit(train, train_labels) 


In [6]: # Make predictions 
preds = gnb.predict(test) 
print(preds ( 


Jupyter Notebook‏ مع خلية بايثون التي تطبع القيم المتوقعة لفئة Naive Bayes‏ على بيانات الاختبار الخاصة بنا 
كما ترىفي إخراج Jupyter Notebook‏ أعادت predict )( Us‏ مصفوفة من الاصفار و 
والواحدات والتي تمثل قيمنا المتوقعة لفئة الورم (الخبيثة مقابل الحمیدة). 
الآن بعد أن أصبحت لدينا توقعاتناء فلنقم بتقييم مدى جودة أداء فريقنا. 
الخطوة 5 - تقييم دقة النموذج 
باستخدام مصفوفة تسميات الفئات الحقيقي يمكننا تقييم دقة القيم المتوقعة لنموذجنا من خلال 
مقارنة المصفوفتین test_labels)‏ مقابل (preds‏ سلستخدم الدالة 
accuracy score )(‏ من sklearn‏ لتحديد دقة تصنيف التعلم الآلي لدینا. 
ML Tutorial‏ 


from sklearn.metrics import accuracy score 


# Evaluate accuracy 


print (accuracy score (test labels, preds)) 
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سترى النتائج التالية: 


In [7]: from sklearn.metrics import accuracy score 


# Evaluate accuracy 
print (accuracy _score(test_labels, preds) 


Jupyter Notebook‏ مع خلية بايثون التي تطبع دقة تصنيف NB‏ الخاص بنا 
كما ترىفي المخرجات. فإن تصنيف NB‏ دقيق بنسبة 94.15/. وهذا يعنى أن 94.15في المائة من 
الوقت يكون المصنف قادرًا على التنبؤ الصحيح بما إذا كان رم ite AES‏ 
تشير هذه النتائج إلى أن مجموعتنا المميزة المكونة من 30 سمة هي مؤشرات جيدة EA‏ الورم. 
لقد نجحتفي بناء أول مصنف للتعلم الآلي. دعنا نعيد تنظيم الكود بوضع جميع عبارات import‏ 
في الجزء العلوي من Notebook‏ أو النص البرمجي. يجب أن تبدو النسخة النهائية من الكود كما 
يلي: 


ML Tutorial 


from sklearn.datasets import load breast cancer 


from sklearn.model selection import train test split 


from sklearn.naive bayes import GaussianNB 


from sklearn.metrics import accuracy score 


# Load dataset 


data = load_breast_cancer () 


# Organize our data 


label names = data['target_names'] 
labels = data['target'] 
feature names = data['feature names'] 


features = data['data'] 


الفصل الرابع : كيفية بناء مصنف للتعلمم الآلي في بايثون باستخدام Scikit-Learn‏ 


# Look at our data 
print (label names) 


print('Class label = ۲, labels[0]) 
print (feature names) 


print (features[0]) 


# Split our data 


train, test, train labels, test labels = 
train test _split(features,labels, test _size=0.33, 
random _state=42) 


# Initialize our classifier 


gnb = GaussianNB )( 


# Train our classifier 


model = gnb.fit(train, train_labels) 


# Make predictions 
preds = gnb.predict (test) 


print (preds) 


# Evaluate accuracy 
print (accuracy Score (test labels, preds) ) 


يمكنك الآن مواصلة العمل مع الكود الخاص بك لمعرفة ما إذا كان بإمكانك تحسين أداء المصنف 
الخاص بك بشكل أفضل. يمكنك تجربة مجموعات فرعية مختلفة من الميزات أو حتى تجربة 
خوارزميات مختلفة تمامًا. تحقق من موقع Scikit-Learn‏ على الويب على scikit-‏ 
learn. org/stable‏ للحصول على مزيد من أفكار التعلم الآلي. 


مشاريع تعلمم الآلة: باینون 


anun 
إنشاء مصنف للتعلم الآليفي بايثون. يمكنك الآن تحميا‎ LAS في هذا البرنامج التعليميء تعلمت‎ 
البيانات وتنظيم البيانات وتدريب مصنفات التعلم الالي والتنبؤ بهم وتقييمهمني بايثون باستخدام‎ 


Scikit-Learn‏ يجب أن تساعدك الخطوات‌في هذا البرنامج التعليمي على تسهيل عملية العمل مع 
بياناتك الخاصةفي بايثون. 


مشاريع تعلم الآلة: باینون 


كيفية بناء شبكة عصبية للتعرف على الأرقام المكتوبة 
بخط اليد باستخدام TensorFlow‏ 

تستخدم الشبكات العصبية كوسيلة للتعلم العمیق. وهي واحدة من العديد من الحقول الفرعية 
للذكاء الاصطناعي. تم اقتراحها لأول مرة منذ حوالي 70 Gle‏ كمحاولة لمحاكاة الطريقة التي 
يعمل بها الدماغ البشري» وإن كان ذلكفي شكل أكثر بساطة. ترتبط "الخلايا العصبية" الفرديةفي 
طبقات. مع تحديد أوزان لتحديد LAS‏ استجابة الخلايا العصبية عندما تنتشر الإشارات عبر 
الشبكة.في السابق. كانت الشبكات العصبية محدودةفي عدد الخلايا العصبية التي كانت قادرة على 
محاکاتها. وبالتلي فان تعقید التعلم الذي یمکنهم تحقیقه. ولکن‌في السترات E‏ وبسبب 
التقدمني تطوير الأجهزةء تمکنا من بناء شبکات عميقة للغاية» وتدریبها على مجموعات بیانات 
هائلة لتحقیق اختراقاتفي الذکاء الآلي. 

سمحت هذه الاختراقات SYN‏ بمطابقة قدرات البشر وتجاوزهافي أداء مهام معينة. إحدى هذه 
المهام هي التعرف على الأشياء. على الرغم من أن الآلات لم تكن تاريخياً قادرة على مطابقة 
الرؤية البشرية. إلا أن التطورات الحديثةفي التعلم العميق جعلت من الممكن بناء شبكات عصبية 
يمكنها التعرف على الأشیاء والوجوه والنصوص وحتى المشاعر. 

في هذا البرنامج التعليمي» ستقوم بتنفيذ قسم فرعي صغير من التعرف على الكائن (التعرف على 
NI‏ قام). باستخدام (https: //www.tensorflow.org/) TensorFlow‏ مكتبة بايثون 
مفتوحة المصدر. 

تم تطويرها بواسطة Google Brain labs‏ لأبحاث التعلم العميق» وسوف تلتقط صورا مرسومة 
يدويًا للأرقام من 0 إلى 9 وتقوم ببناء وتدريب شبكة عصبية للتعرف والتنبؤ بالتسمية الصحيحة 
للرقم المعروض. على الرغم من أنك لن تحتاج إلى خبرة سابقةفي التعلم العميق العملي أو 
TensorFlow‏ لمتابعة هذا البرنامج التعليمي. فإننا نفترض بعض الإلمام بمصطلحات ومفاهيم 
التعلم الآلي مثل التدريب والاختبار والميزات والتسميات والتحسين والتقييم. 

المتطلبات الأساسية 

لإكمال هذا البرنامج التعليمي» ستحتاج إلى He‏ تطوير بايثون 3 محلية أو بعيدة تتضمن نقطة 
لتثبيت حزم بايثون و۷۵۷ لانشاء بيئات افتراضية. 


الخطوة 1 - اعداد المشروع 


قبل أن تتمكن من تطوير برنامج التعرف. ستحتاج إلى تثبيت بعض التبعيات وإنشاء مساحة عمل 
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سنستخدم بيئة بايثون 3 الافتراضية لإدارة تبعيات مشروعنا. قم بإنشاء دليل جديد لمشروعك 
وانتقل إلى الدليل الجديد: 


mkdir tensorflow-democd 


tensorflow-demo 


قم بتنفيذ الأوامر التالية لإعداد البيئة الافتراضية لهذا البرنامج التعليمي: 
python3 -m venv tensorflow-demo source‏ 


tensorflow-demo/bin/activate 


بعد ذلك. قم بتثبيت المكتبات التي ستستخدمهافي هذا البرنامج التعليمي. سنستخدم إصدارات 
محددة من هذه المكتبات من خلال إنشاء ملف requirements. txt‏ في دليل المشروع 
الذي يحدد المتطلبات والإصدار الذي نحتاجه. قم بإنشاء :requirements . txt‏ 
(tensorflow-demo) $ touch requirements.txt‏ 
افتح الملفني محرر النصوص وأضف الأسطر التالية لتحديد مكتبات NumPy, Image‏ 
TensorFlows‏ وإصداراتها: 
requirements.txt‏ 
image==1.5.20‏ 
numpy==1.14.3‏ 


tensorflow==1.4.0 


احفظ الملف واخرج من المحرر. ثم قم بتثبيت هذه المکتبات باستخدام الأمر التالي: 
(tensorflow-demo) $ pip install -r requirements.txt‏ 
مع تثبيت التبعیات. يمكننا البدءفي العمل على مشروعنا. 

الخطوة 2 - استيراد مجموعة بيانات MNIST‏ 

تسمى مجموعة البيانات التي سنستخدمهافي هذا البرنامج التعليمي مجموعة بيانات (MNIST‏ 
وهي مجموعة بيانات كلاسيكيةني مجتمع التعلم الآلي. تتكون مجموعة البيانات هذه من صور 


بأرقام مكتوبة بخط اليد. بحجم 28 x‏ 28 بكسل. فيما يلي بعض الأمثلة على الأرقام المضمنةفي 
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أمثلة على صور MNIST‏ 
دعنا ننشئ برنامج بايثون للعمل مع مجموعة البيانات هذه. سنستخدم Gls‏ واحدا لكل عملناني 
هذا البرنامج التعليمي. قم بإنشاء ملف جديد يسمى main. Py‏ 
(tensorflow-demo) 5 touch main.py‏ 
افتح الآن هذا الملفني محرر النصوص الذي تختاره وأضف هذا السطر من التعليمات البرمجية 
إلى الملف لاستيراد مكتية TensorFlow‏ : 


main.py 


import tensorflow as tf 


أضف سطور التعليمات البرمجية التالية إلى ملفك لاستيراد مجموعة بيانات MNIST‏ وتخزين 
بيانات الصورةفي المتغير mnist‏ 


main.py 


from tensorflow.examples.tutorials.mnist import 
input_data 


mnist = input 4212 ۰.1620 data_sets("MNIST data/", 


one_hot=True) ylabels are oh-encoded 


عند قراءة LLII‏ نستخدم ترميرًا واحدا one-hot-encoding Cols‏ لتمثيل التسميات 
للقيم الثنائية لتمثيل القيم الرقمية أو الفئوية. نظرًا OY‏ تسمياتنا للأرقام من 0 إلى ۰9 فإن المتجه 
يحتوي على عشر قیم. واحدة لكل رقم محتمل. يتم تعيين إحدى هذه القيم على 1 لتمثيل الرقم 


الفصل الخامس: كيفية بناء مصنف للتعلمم الآلي في بايثون باستخدام Scikit-Learn‏ 


باستخدام المتجه: 


[O, 0, O, 1, O, O, O, O, O, 0[ 

نظرًا oY‏ يتم تخزين القيمةفي الفهرس 3 على أنها 1. فإن المتجه يمثل الرقم 3. 

لتمثيل الصور الفعلية نفسهاء يتم تسطيح 28 x‏ 28 بكسلفي متجه (11 بحجم 784 بكسل. يتم 
تخزين كل بكسل من ال 784 بكسل المكونة للصورة كقيمة بين 0 و255. وهذا يحدد التدرج 
الرمادي للبكسل» حيث يتم تقديم صورنا بالأبيض والأسود فقط. لذلك يتم تمثيل البكسل الأسود 
ب ۰255 والبكسل الأبيض ب 0ء مع ظلال مختلفة من الرماديفي مكان ما بينهما. 

يمكننا استخدام المتغير mnist‏ لمعرفة حجم مجموعة البيانات التي قمنا باستيرادها للتو. 
بالنظر إلى عدد الأمثلة لكل مجموعة من المجموعات الفرعية الثلاث. یمکننا تحديد أن 
مجموعة البيانات قد تم تقسيمها إلى 55000 صورة للتدريب و5000 صورة للتحقق و10000 
صورة للاختبار. أضف الأسطر التالية إلى ملفك: 


main.py 


n train = mnist.train.num_examples # 55,000 
n validation = mnist.validation.num_examples # 5000 


n test = mnist.test.num_examples # 10,000‏ 
الآن بعد أن تم استيراد بياناتناء حان الوقت للتفكيرفي الشبكة العصبية. 


الخطوة 3 yaj-‏ بنية الشبكة العصبية 

تشير بنية الشبكة العصبية إلى pole‏ مثل عدد الطبقاتفي الشبکة. وعدد الوحدات‌في كل طبقة 
وكيفية توصيل الوحدات بين الطبقات. نظرًا لأن الشبكات العصبية مستوحاة بشكل فضفاض من 
عمل الدماغ البشري» يتم استخدام مصطلح الوحدة هنا لتمثيل ما قد نفكر فيه من الناحية 
البيولوجية على أنه خلية عصبية. مثل الخلايا العصبية التي تمرر إشارات حول الدماغ. تأخذ 
الوحدات بعض القيم من الوحدات السابقة کمدخلات. وتجري عملية حسابيةء ثم تنقل القيمة 
الجديدة کمخرجات إلى وحدات أخرى. يتم وضع هذه الوحداتفي طبقات لتشكيل الشبكة؛ بدءًا 
من طبقة واحدة على الأقل لإدخال القيم وطبقة واحدة لقيم الإخراج. يستخدم مصطلح الطبقة 
المخفية لجميع الطبقات الموجودة بين طبقات الإدخال والإخراج» أي تلك "المخفية" من العالم 
الحقيقى. 
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يمكن أن تسفر البنى المختلفة عن نتائج مختلفة بشكل كبير» حيث يمكن التفكيرفي الأداء كدالة 
للهندسة المعمارية من بين أشياء أخرى. مثل المعلمات والبيانات ومدة التدريب. 


أضف سطور التعليمات البرمجية التالية إلى ملفك لتخزين عدد الوحدات لكل طبقةنی المتغيرات 
العامة. یتیح لنا ذلك تغییر بنية الشبكةفي مكان واحد. وفي نهاية البرنامج التعليمي يمكنك اختبار 
بنفسك كيف ستؤثر الأرقام المختلفة للطبقات والوحدات على نتائج نموذجنا: 


main.py 


n input = 784 # input layer (28x28 pixels) 


n hiddenl = 512 # 1st hidden layer 
n hidden2 = 256 # 2nd hidden layer 


n_hidden3 = 128 # 3rd hidden layer 


n output = 10 # output layer (0-9 digits) 
یظهر الرسم البياني التالي تصورًا للبنية التي صممناهاء مع كل طبقة متصلة بالكامل بالطبقات‎ 
المحبطة:‎ 


رسم تخطيطي للشبكة العصبية 
پرتبط مصطلح "الشبكة العصبية العمیقة" بعدد الطبقات المخفية» حیث تعني كلمة "الضحلة 
dole "shallow‏ طبقة مخفية واحدة فقط. بينما تشیر كلمة "عمیق "deep‏ إلى طبقات مخفية 
متعددة. بالنظر إلى بیانات تدریب كافية» يجب أن تکون الشبكة العصبية الضحلة التی تحتوي 
على عدد كاف من الوحدات قادرة نظریّا على تمثیل أي دالة یمکن لشبكة عصبية عميقة. ولکن 
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غالبا ما يكون من المفيد أكثر من الناحية الحسابية استخدام شبكة عصبية عميقة أصغر لتحقيق 
نفس المهمة التي تتطلب شبكة ضحلة بها وحدات مخفية أكثر بشكل كبير. 

WL‏ ما تصادف الشبكات العصبونية الضحلة إفراطافي التعلم coverfitting‏ حيث تحفظ الشبكة 
أساسًا بيانات التدريب التي شاهدتهاء ولا تكون قادرة على تعميم المعرفة على البيانات الجديدة. 
هذا هو السبب‌في استخدام الشبكات العصبية العميقة بشكل أكثر شیوعا: تسمح الطبقات 
المتعددة بين بيانات الإدخال الأولية وتسمية الإخراج للشبكة بتعلم الميزات على مستويات 
مختلفة من التجرید. مما يجعل الشبكة نفسها أكثر قدرة على التعميم. 

العناصر الأخرى للشبكة العصبية التي يجب تحديدها هنا هي المعلمات الفائقة 
.hyperparameters‏ على عکس المعلمات التي سيتم تحديثها أثناء التدریب. يتم تعيين هذه 
القيمني البداية وتبقى ثابتة طوال العملية.في ملفك. اضبط المتغيرات والقيم التالية: 


main.py 
learning rate = le-4 
n_iterations = 1000 


batch size = 128‏ 
dropout = 0.5‏ 
يمثل معدل التعلم learning rate‏ مقدار تعديل المعلماتفي كل خطوة من خطوات عملية 
التعلم. تعد هذه التعديلات مكونًا Gary‏ للتدريب: بعد كل مرور عبر AR‏ نقوم بضبط الأوزان 
قليلاً لمحاولة تقليل الخسارة. يمكن أن تتقارب معدلات التعلم الأكبر بشكل آسرع. ولكن لديها 
أيضًا القدرة على تجاوز القيم المثلى عند تحديثها. يشير عدد التكرارات number of‏ 
iterations‏ إلى عدد المرات التي نمر فيها بخطوة التدريب» ويشير حجم الدفعة batch size‏ 
إلى عدد أمثلة التدريب التي نستخدمهاني كل خطوة. يمثل متغير التسرب dropout‏ الحد الذي 
عنده نحذف بعض الوحدات بشكل عشوائي. سنستخدم 472020111 في الطبقة المخفية النهائية 
لمنح کل وحدة فرصة بنسبة 50/ للتخلص منهافي كل خطوة تدريب. هذا يساعد على من الإفراط 
لقد حددنا الآن dy‏ شبكتنا العصبية. والمعلمات الفائقة التي تؤثر على عملية التعلم. الخطوة 
التالية هي بناء الشبكة كرسم بياني 60901۳10۷ 1 . 
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الخطوة 4 - بناء pwyl‏ البياني ل TensorFlow‏ 

LJ‏ شبکتناء سنقوم بإعداد الشبكة كرسم بياني حسابي لتنفيذه .TensorFlow‏ المفهوم 
الأساسي ل TensorFlow‏ هو الموتر tensor‏ وهي بنية بيانات مشابهة لمصفوفة أو قائمة. 
تهیتها ومعالجتها أثناء تمريرها عبر الرسم البياني وتحديثها من خلال عملية التعلم. 

۳ بتحديد ثلاث موترات كعناصر نائبة «placeholders‏ وهي عبارة عن موترات سنقوم 
بتغذية القیم بها GY‏ أضف ما يلي إلى ملفك: 


main.py 


X = tf£.placeholder("float", [None, n_input]) 


X = tf.placeholder ("float", [None, n output] ) 
keep prob = tf.placeholder (tf.float32) 


المعلمة الوحيدة التي يجب تحديدهافي إعلانها هي حجم البيانات التي سنغديها. بالنسبة إلى X‏ 
نستخدم شكل ]784 [None,‏ > حيث None‏ يمثل أي كمية. حيث سنقوم بتغذية غير محدد 
عدد الصور 784 بكسل. شكل ۷ هو ]10 [None,‏ لأننا سنستخدمه لعدد غير محدد من 
مخرجات التسميةء مع 10 فثات محتملة. يتم استخدام موتر keep prob‏ للتحكمفي معدل 
التسرب est» «dropout rate‏ بتهيئته كعنصر نائب بدلاً من متغير غير قابل للتعديل 
immutable variable‏ لاننا نريد استخدام نفس الموتر للتدريب (عند تعيين dropout‏ 
على 5 . 0) والاختبار (عند تعيين dropout‏ على 1.0( 

المعلمات التي ستقوم الشبكة بتحديثهاني عملية التدريب هي قيم الوزن weight‏ والتحيز 
bias‏ لذلك نحتاج إلى تعيين قيمة أولية بدلا من عنصر نائب فارغ. هذه القيم هي أساسًا حيث 
تقوم الشركة بالتعلم» حیث يضم استخدامهاني دوال التتشیط للخلایا العصبية. والتي تمثل قوة 
الاتصالات بين الوحدات. 


نظرًا لانه تم تحسین القیم أثناء التلدریب» یمکننا ضبطها على صفرفي الوقت الحالي. لکن القيمة 
الأولية لهاني الواقع تأثیر کبیر على الدقة النهائية للنموذج. سنستخدم قيمًا عشوائية من التوزیع 
الطبيعي المقتطع للأوزان. نريدهم أن یکونوا قریبین من الصفر. حتی یتمکنوا من التکیف إمافي 
اتجاه ایجابی أو سلبی. ومختلفة بعض الشیء. بحیث پولدون أخطاء مختلفة. سیضمن هذا أن 
یتعلم النموذج شین مفیدا. أضف هذه الأسطر: 
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main.py 


۲۲۷1۲: tf.Variable(tf.truncated_normal([n_ input, 


n_hiddenl],stddev=0.1)), 


۲۷2۲ : 
tf. Variable (tf.truncated_normal ([n_hiddenl, 


n_hidden2],stddev=0.1)), 


RAEE‏ ان 
(tf.truncated_ normal ([n_hidden2,‏ 2۳016 ۰۷211 ۲۶ 


n_hidden3],stddev=0.1)), 
"out": 
tf.Variable(tf.truncated normal([n_hidden3, 


n output], 
stddev=0.1)), 


} 

بالنسبة للانحیاز. نستخدم قيمة ثابتة صغيرة لضمان تنشيط الموتراتفي المراحل الأولية وبالتالي 
المساهمةفي الانتشار. يتم تخزين الأوزان وموترات التحیزفي کائنات القاموس لسهولة الوصول 
إليها. أضف هذه الشفرة البرمجية إلى ملفك لتحديد التحيزات: 


main.py 


biases = { 
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bl':tf£.Variable(tf.constant (0.1, shape=[n_hidden1] ) 


b2':t£.Variable(tf.constant (0.1, shape=[n_hidden2] ) 
), ' 


13 ۲:۳۶ ۰۷112۳016 (tf.constant (0.1, shape=[n_hidden3] ( 
), ' 


out':tf.Variable(tf.constant(0.1, 
shape=[n_output]) ) 


} 
بعد ذلك قم بإعداد طبقات الشبكة عن طريق تحديد العمليات التي ستعالج الموترات. أضف 
هذه السطور إلى ملفك: 

main.py 
layer 1=tf.add(tf.matmul (X,weights['wl']),biases[' 
b1']) 
layer 2 = tf.add(tf.matmul (layer 1, 
weights['w2']), biases['b2"']) 
layer 3 = tf.add(tf.matmul (layer 2, 


weights['w3']), biases['b3"']) 


layer drop = tf.nn.dropout (layer 3, keep prob) 


output layer = tf.matmul(layer 3, weights['out']) 
+ biases ] ۲ 0121۲ [ 


ستنفذ کل طبقة Lite‏ عملية ضرب المصفوفة على مخرجات الطبقة السابقة وآوزان الطبقة 
الحاليةء وتضیف الانحیاز إلى هذه القیم.في آخر طبقة مخفیة. سنطبق عملية التسرب باستخدام 
قيمة 00 keep‏ الخاصة بنا 0.5. 

الخطوة النهائيةفي بناء الرسم البياني هي تحدید دالة الخسارة التي نرید تحسینها. الاختیار الشائع 
لدالة الخسارةفي برامج TensorFlow‏ هو الانتروبیا المتقاطعة ۰6095-60005 والمعروفة 
Cal‏ باسم dog-loss‏ والتي تحدد الفرق بين توزیعین احتمالیین (التنبؤات والتسمیات). 
سيؤدي التصنیف المثالي إلى إنتروبيا متقاطعة مقدارها ۰0 مع تقلیل الخسارة تماما. 

نحتاج Cad‏ إلى اختیار خوارزمية التحسین التي سیتم استخدامها لتقلیل دالة الخسارة. عملية 
تسمی تحسین التدرج الاشتقاقی gradient descent‏ هی طريقة شائعة لایجاد الحد الأدنى 
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(المحلي) لدالة ما عن طريق اتخاذ خطوات تكرارية على طول التدرج‌فی اتجاه سلبي (تنازلي). 
هناك العديد من الخيارات لخوارزميات تحسين التدرج الاشتقاقي التي تم تنفيذها بالفعلفي 
TensorFlow‏ وفي هذا البرنامج التعليمي سنستخدم محسن ادم Adam optimizer‏ . يمتد 
هذا إلى تحسين التدرج الاشتقاقي باستخدام الزخم لتسريع العملية من خلال حساب متوسط 
مرجح Lal‏ للتدرجات واستخدام ذلكفي التعديلات. أضف الكود التالي إلى ملفك: 


main.py 


cross entropy = tf.reduce_mean ) 
tf.nn.softmax_cross entropy with logits ) 
labels=Y, logits=output_ layer 

)) 


train step = tf.train.AdamOptimizer (le- 
4) .minimize(cross entropy) 


لقد حددنا الآن الشبكة وقمنا ببنائها باستخدام TensorFlow.‏ الخطوة التالية هي تغذية البيانات 
من خلال الرسم البياني لتدريبهاء ثم اختبار ما إذاكانت قد تعلمت شین بالفعل . 

الخطوة 5 - التدريب والاختبار 

الخسارة.في كل مرة تقوم الشبكة بالتكرار من خلال مجموعة من المزيد من صور التدریب. تقوم 
بتحديث المعلمات لتقليل الخسارة من أجل التنبؤ بشكل أكثر دقة بالأرقام المعروضة. تتضمن 
قبل بدء عملية التدریب. سنحدد طريقتنافي تقييم الدقة حتى نتمكن من طباعتها على دفعات 
mini-batches3 pao‏ من البيانات أثناء التدريب. ستسمح لنا هذه البيانات المطبوعة بالتحقق 
من أنه بدءًا من التكرار الأول وحتى الأخيرء تقل الخسارة وتزداد الدقة؛ سيسمحون لنا أيضًا بتتبع 
ما إذا كنا قد أجرينا عددًا GE‏ من التكرارات للوصول إلى نتيجة متسقة ومثلى: 


main.py 


correct pred = tf.equal (tf.argmax (output layer, 
1), tf.argmax(Y, 1)) 


accuracy = tf.reduce mean(tf.cast (correct pred, 
tf. float32) ) 


مشاريع تعلم الآلة: باینون 


في correct_pred‏ ۰ نستخدم الدالة arg _max‏ لمقارنة الصور التي يتم توقعها بشكل 
صحيح من خلال النظر output_layer J)‏ (التنبؤات) و Y‏ (التسميات) e‏ ونستخدم دالة 
1 لإرجاعها كقائمة من القيم المنطقية Booleans‏ يمكننا بعد ذلك بث هذه القائمة الى 
5 وحساب الوسط للحصول على درجة دقة كاملة. 

نحن OW‏ جاهزون لتهيئة جلسة لتشغیل الرسم البياني.في هذه الجلسةء سنقوم بتغذية الشبكة 
بأمثلة التدریب الخاصة بناء وبمجرد التدریب. نقوم بتغذية نفس الرسم البياني بأمثلة اختبار 
جديدة لتحدید Bo‏ النموذج. أضف سطور التعلیمات البرمجية التالية إلى ملفك: 


main.py 
init = tf£.global_ variables initializer )( 
sess = tf.Session() 


sess.run (init) 

جوهر عملية التدريبفي التعلم العميق هو تحسين دالة الخسارة. نحن هنا نهدف إلى تقليل 
الاختلاف بين التسميات المتوقعة للصور والتسميات الحقيقية للصور. تتضمن العملية أربع 
خطوات 55 ر لعدد محدد من التكرارات: 

٠‏ انشر القيم إلى الأمام عبر الشبكة. 

© احسب الخسارة. 

٠ه‏ انشر القيم بشكل عكسي عبر الشبكة. 

۰ قم بتحديث المعلمات. 
في كل خطوة تدریب. يتم تعدیل المعلمات قليلاً لمحاولة تقلیل الخسارة للخطوة التالية. مع 
تقدم التعلم» يجب أن نری GL‏ الخسارة. وفي النهاية یمکننا التوقف عن التدریب 
واستخدام الشبكة کنموذج لاختبار بیاناتنا الجديدة. 
آضف هذا الکود إلى الملف: 


# train on mini batches 


for i in range(n_iterations): 


batch_x,batch_y=mnist.train.next_batch (batch _ 
size) 


الفصل الخامس: كيفية بناء مصنف للتعلمم الآلي في بايثون باستخدام Scikit-Learn‏ 


sess.run(train_ step, feed dict={X: batch x, Y: 
batch_y, keep prob: dropout}) 


# print loss and accuracy (per minibatch) 
if i 5 100 == 


minibatch_loss,minibatch_accuracy= 
sess.run( [cross entropy, accuracy], 


feed dict={X: batch_x, Ys batch ۷, 
keep prob: 1.0} 


print ) 


Iteration", 


str(i), 


"\t| Loss =", 


str(minibatch loss), 


"\t| Accuracy =", 


str (minibatch_ accuracy) 
) 

بعد 100 تكرار لكل خطوة تدريب نقوم فيها بتغذية دفعة صغيرة من الصور عبر الشبكة» نقوم 
بطباعة فقد تلك الدفعة ودقتها. لاحظ أنه لا ينبغى أن نتوقع خسارة متناقصة وزيادة الدقة هناء 
حيث إن القيم لكل دفعة؛ وليس للنموذج بأكمله. نحن نستخدم دفعات صغيرة من الصور بدلاً 
من إطعامها بشكل فردي لتسريع عملية التدريب والسماح للشبكة بمشاهدة عدد من الأمثلة 
المختلفة قبل تحديث المعلمات. 
بمجرد اكتمال التدریب. يمكننا تشغيل الجلسة على صور الاختبار. نستخدم هذه المرة معدل 
تسرب keep_prob‏ مساوي ل0. 1 للتأكد من أن جميع الوحدات jiki‏ عملية الاختبار. 
أضف هذا الكود إلى الملف: 


main.py 


مشاريع تعلم الآلة: بايثون 


test accuracy = sess.run(accuracy, feed dict={X: 
mnist.test.images, Ye mnist.test.labels, 
keep prob: 1.0}) 


print ("\nAccuracy on test set:", test accuracy) 
لتشغيل برنامجنا ومعرفة مدى دقة شبكتنا العصبيةني التعرف على هذه الأرقام‎ OW حان الوقت‎ 
التیرمینال لتشغيل السكريبت:‎ GS وقم بتنفيذ الأمر‎ main. py المكتوبة بخط اليد. احفظ‎ 

(tensorflow-demo) 5 python main.py 


ترى GSL‏ مشابها لما بلی» على الرغم من أن نتائج الخسارة الفردية والدقة قد تختلف قلیلا: 
سير ل s‏ عم من J (x‏ يه و ب 


Iteration 0 Loss = 3.67079 | Accuracy = 0.140625 
Iteration 100 Loss = 0.492122 Accuracy = 0.84375 
Iteration 200 Loss = 0.421595 Accuracy = 0.882812 
Iteration 300 Loss = 0.307726 Accuracy = 0.921875 
Iteration 400 Loss = 0.392948 Accuracy = 0.882812 
Iteration 500 Loss = 0.371461 Accuracy = 0.90625 
Iteration 600 Loss = 0.378425 Accuracy = 0.882812 
Iteration 700 Loss = 0.338605 Accuracy = 0.914062 
Iteration 800 Loss = 0.379697 Accuracy = 0.875 

Iteration 900 Loss = 0.444303 Accuracy = 0.90625 


Accuracy on test set: 0.9206‏ 
لمحاولة تحسين دقة نموذجناء أو لمعرفة المزيد حول تأثير ضبط المعلمات الفائقة» يمكننا اختبار 
تأثير تغيير معدل التعلم. وعتبة التسرب. وحجم الدفعةء وعدد التكرارات. یمکننا أيضًا تغيير عدد 
الوحدات‌ي طبقاتنا المخفیة. وتغيير كمية الطبقات المخفية نفسهاء لنرى كيف تزيد البنی 
المختلفة من دقة النموذج أو تقللها. 
لاثبات أن الشبكة تتعرف بالفعل على الصور المرسومة يدويًاء دعنا نختبرها على صورة واحدة 
خاصة بنا. 
إذاكنت تستخدم جهازا محلیّا وترغب‌في استخدام الرقم المرسوم يدويّاء فيمكنك استخدام محرر 
رسومات لإنشاء صورة رقم 28 x‏ 28 بكسل الخاصة بك. بخلاف ذلك يمكنك استخدام 
curl‏ لتنزيل عينة الاختبار التالية إلى الخادم أو الكمبيوتر: 


الفصل الخامس: كيفية بناء مصنف للتعلمم الآلي في بايثون باستخدام Scikit-Learn‏ 


(tensorflow-demo) $ curl -O images/test_img.png 
في المحرر الخاص بك وأضف سطور التعليمات البرمجية التالية إلى أعلى‎ main. py gl 
الملف لاستيراد مكتبتين ضروريتين لمعالجة الصور.‎ 
main.py 


import numpy as np 


from PIL import Image 


ثمفي نهاية الملف. أضف السطر التالي من التعليمات البرمجية لتحميل صورة الاختبار للرقم 
المكتوب بخط اليد: 


main.py 


img=np.invert (Image.open("test_img.png") .convert (' 
L')) .ravel )( 


تقوم دالة open‏ لمكتبة Image‏ بتحميل صورة الاختبار كمصفوفة 4D‏ تحتوي على قنوات 
ألوان RGB‏ الثلاث وشفافية ألفا. هذا ليس نفس التمثيل الذي استخدمناه Gla‏ عند القراءةفي 
مجموعة البيانات باستخدام1625011:101' ۰ لذلك سنحتاج إلى القيام ببعض الأعمال الإضافية 
ولا نستخدم دالة convert‏ مع المعلمة L‏ لتقليل تمثیل 4D RGBA‏ إلى قناة ألوان رمادية 
واحدة. نخزن هذا كمصفوفة numpy‏ ونعكسها باستخدام oY. np.invert‏ المصفوفة 
الحالية تمثل الأسود 0 والأبيض ك 255 ۰ ley‏ نحتاج إلى العكس. آخیرا. ravel gus‏ 
لتسطيح المصفوفة. 

الآن بعد أن تم تنظيم بيانات الصورة بشكل صحیح. یمکننا تشغيل جلسة بنفس الطريقة كمافي 
السایق ولكن هذه المرة يتم التغذية فقطفي صورة واحدة للاختبار. 


أضف الكود التالي إلى ملفك لاختبار الصورة وطباعة التسمية الناتج . 


main.py 


prediction = sess.run(tf.argmax(output_layer, و ار‎ 
feed dict={X: [img]}) 


مشاريع تعلم الآلة: باینون 


print ("Prediction for test image:", 
np.squeeze (prediction) ) 


يتم استدعاء squeeze ül‏ . 0 عند التنبؤ لإرجاع عدد صحيح واحد من المصفوفة ol)‏ 
الانتقال من [2] إلى 2). يوضح الاخراج الناتج أن الشبكة قد تعرفت على هذه الصورة على أنها 
الرقم 2. 
Output‏ 

Prediction for test image: 2‏ 
يمكنك محاولة اختبار الشبكة باستخدام صور أكثر تعقیدا - آرقام تشبه الأرقام الأخری» على 
سبيل المثال» أو الأرقام التي تم رسمها بشكل سيء أو غير صحيح - لنرى كم هو جيد. 
الاستنتاج 
في هذا البرنامج التعليمي» نجحتفي تدریب شبكة عصبية لتصنیف مجموعة بیانات MNIST‏ 
بدقة تصل إلى 92/ واختبرتها على صورة خاصة بك. تحقق آحدث GEN‏ الحالية حوالی 
9 حول هذه المشكلة نفسها. باستخدام نی شبکات أكثر تعقيدا تتضمن طبقات تلافيفية. 
تستخدم هذه البّنية ثنائية الأبعاد للصورة لتمثیل المحتویات بشکل أفضل. على عکس طریقتنا 
التي - خففت کل وحدات البکسل‌ني متجه واحد من 784 وحدة. یمکنك قراءة المزید حول هذا 
الموضوع على موقع TensorFlow‏ الالكتروني والاطلاع على المقالات البحثية التي توضح 
بالتفصیل النتائج الا کثر دقة على موقع -MNIST‏ 
ON‏ بعد آن عرفت LAS‏ (نشاء شبكة عصيية وتدریبها؛ یمکنك تجرية هذا التطبیق واستخدامه 
على بیاناتك الخاصة. أو اختباره على مجموعات البیانات الشائعة الأخرى مثل Google‏ 
StreetView House Numbers‏ . أو مجموعة بیانات CIFAR-10‏ لمزید من التعرف 
علی الصور العامة. 


مشاريع تعلمم الآلة: باینون 


التحيز-التباين للتعلم المعزز العميق: كيفية بناء بوت ل 
Atari‏ باستخدام OpenAI Gym‏ 


التعلم المعزز Reinforcement learning‏ هو مجال فرعي ضمن نظرية التحكم control‏ 
theory‏ والذي يهتم بأنظمة التحكم التي تتغير بمرور الوقت وتشمل على نطاق واسع تطبيقات 
مثل السيارات ذاتية القيادة والروبوتات والروبوتات للألعاب.في هذا الدليل» ستستخدم التعلم 
المعزز لبناء بوت لألعاب الفيديو أتاري. لا يتم منح هذا البوت الوصول إلى المعلومات الداخلية 
حول اللعبة. بدلا من ذلك. يتم منحه فقط حق الوصول إلى عرض اللعبة والمكافأة على هذا 
العرض. مما يعني أنه يمكنه فقط رؤية ما يراه اللاعب البشري. 


في التعلم SY‏ يُعرف البوت رسميًا باسم الوكيل 28612.في حالة هذا البرنامج التعليمي الوكيل 
هو "لاعب"في النظام يعمل وفقًا لوظيفة اتخاذ القرار. تسمى السياسة policy‏ الهدف الأساسي 
هو تطوير وكلاء أقوياء من خلال تسليحهم بسياسات قوية. بعبارة آخری, هدفنا هو تطوير بوتات 
ذكية من خلال تسليحها بقدرات قوية على اتخاذ القرار. 

ستبدأ هذا البرنامج التعليمي من خلال تدريب وكيل التعلم المعزز الأساسي الذي يتخذ إجراءات 
عشوائية عند لعب Space Invaders‏ لعبة أركيد Atari‏ الکلاسيكية. والتى ستكون بمثابة خط 
الأساس للمقارنة. بعد ذلك» سوف تستكشف العديد من التقنيات الأخرى - بمافي ذلك -Q‏ 
التعلم Q- learning‏ والتعلم العميق «deep Q-learning Q‏ والمربعات الصغرى least‏ 
squares‏ _ آثناء بناء الوكلاء الذين يلعبون لعبة Space Invaders‏ و «Frozen Lake‏ وهي 
بيئة ألعاب سيطة مدرجةفي «(https: //gym.openai.com /( Gym‏ مجموعة أدوات التعلم 
المعزز الصادرة عن .chttps://openai.com/) OpenAl‏ باتباع هذا البرنامج التعليمي. 
ستكتسب فهمًا للمفاهيم الأساسية التي تحكم اختيار الفرد لتعقيد النموذجني التعلم الآلي. 
المتطلبات الأساسية 

لإكمال هذا البرنامج التعليمي سوف تحتاج إلى: 


(RAM) مع ذاكرة وصول عشوائي‎ Ubuntu 18.04 خادم يعمل بنظام التشغيل‎ o 
لا تقل عن 1 جيجابايت. يجب أن يحتوي هذا الخادم على مستخدم غير جذر مع‎ 
يمكنك إعداد‎ UFW بالإضافة إلى إعادة تم إعدادها باستخدام‎ «sudo امتيازات‎ 
‘Ubuntu 18.04 هذا باتباع دليل الإعداد الأولي للخادم ل‎ 

3 تثبيت بايثون‎ LAS" بيئة افتراضية بايثون 3 يمكنك تحقيقها من خلال قراءة دلیلنا‎ ٠ 
"Ubuntu 18.04 وإعداد بيئة برمجة على خادم‎ 


الفصل السادس: التحيز التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


Wy‏ من ذلك إذا كنت تستخدم جهازا oes‏ فيمكنك تثبيت بايثون 3 وإعداد بيئة برمجة محلية 
من خلال قراءة البرنامج التعليمي المناسب لنظام التشغيل الخاص بك عبر سلسلة تثبيت وإعداد 
بايثون. 

الخطوة 1 - إنشاء المشروع وتثبيت التبعيات 

من أجل إعداد بيئة التطوير لبوتاتك. يجب عليك تنزيل اللعبة نفسها والمكتبات اللازمة 
للحساب. 


ابدأ بإنشاء مساحة عمل لهذا المشروع باسم :AtariBot‏ 


mkdir ~/AtariBot 


انتقل إلى دليل +26321217801 الجديد: 


cd ~/AtariBot 


ثم قم بإنشاء بيئة افتراضية جديدة للمشروع. يمكنك تسمية هذه البيئة الافتراضية بأي شيء تريده؛ 
cbs‏ سوف نسميها 211101 2: 
python3 -m venv ataribot‏ 

۱ s E j 5 قم بت‎ 

source ataribot/bin/activate 
تثبيت بعض الحزم الإضافية‎ OpenCV اعتبارًا من الإصدار ۰16.04 يتطلب‎ Ubuntu في‎ 
وهو تطبيق يدير عمليات بناء البرامج  بالإضافة إلى‎ - CMake حتى تعمل. يتضمن ذلك‎ 
مدير الجلسة والإضافات المتنوعة وتكوين الصور الرقمية. قم بتشغيل الأمر التالي لتثبيت هذه‎ 


sudo apt-get install -y cmake 112526 6 
libxrender-dev libz-dev 


الوحيد الذي تحتاج إلى تثبيته هو CMake‏ قم بتثبيته باستخدام gill) Homebrew‏ ستثيته 
إذا اتبعت البرنامج التعليمي المتطلب (MacOS‏ عن طريق ALS‏ 


brew install cmake 


مشاريع تعلمم الآلة: بايثون 


بعد ذلك. استخدم cut) pip‏ حزمة wheel‏ والتطبيق المرجعي لمعيار تحزيم Wheel‏ 
مكتبة بايثون. هذه الحزمة بمثابة امتداد لبناء wheels‏ وتتضمن أداة سطر الأوامر للعمل مع 
:.whl‏ 


python -m pip install wheel 
ستحتاج إلى تثبيت الحزم التالية:‎ wheel بالإضافة إلى‎ 

«Gym o‏ مكتبة بايثون التي تتيح العديد من الألعاب للبحث. بالإضافة إلى جميع 
التبعيات لألعاب Atari‏ يقدم Gym‏ الذي طورته OpenAl‏ معايير isle‏ لكل لعبة 
من الألعاب بحيث يمكن تقييم أداء الوكلاء والخوارزميات المختلفة بشكل موحد. 

Tensorflow e‏ . مكتبة تعليمية عميقة. تمنحنا هذه المكتبة القدرة على إجراء العمليات 
الحسابية بكفاءة أكبر. على وجه التحدید. يقوم بذلك عن طريق بناء دوال رياضية 
باستخدام تجريدات Tensorflow‏ التي تعمل بشكل حصري على وحدة معالجة 

OpenCV e‏ . مكتبة الرؤية الحاسوبية المذكورة سابقا. 

قم بتثبيت كل من هذه الحزم باستخدام الأمر التالي. لاحظ أن هذا الأمر يحدد إصدار كل حزمة 


python -m pip install gym==0.9.5 tensorflow==1.5.0 


tensorpack==0.8.0 numpy==1.14.0 scipy==1.1.0 


opencv-python==3.4.1.15 


بعد ذلك استخدم pip‏ مرة أخرى لتثبيت بيئات Gym GAtari‏ والتي تتضمن مجموعة 
متنوعة من ألعاب الفيديو gly «Atari‏ ذلك :Space Invaders‏ 
python -m pip install gym[atari]‏ 
إذا نجح تثبيت حزمة «gym[atari]‏ سينتهي إخراجك بما يلي: 
Output‏ 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


Installing collected packages: atari-py, Pillow, 
PyOpenGL Successfully installed Pillow-5.4.1 


PyOpenGL-3.1.0 atari-py-0.1.7 


مع تثبيت هذه التبعیات. ستكون Gale‏ للمضي قدمًا وبناء وكيل يلعب بشكل عشوائي ليكون 
بمثابة الأساس للمقارنة. 
الخطوة 2 - إنشاء وكيل عشوائي أساسي باستخدام Gym‏ 
الآن بعد أن أصبح البرنامج المطلوب على الخادم الخاص بك» ستقوم بإعداد وكيل يقوم بتشغيل 
نسخة مبسطة من لعبة Atari‏ الكلاسيكية. Space Invaders‏ لأي تجربة. من الضروري 
الحصول على خط أساس لمساعدتك على فهم مدى جودة أداء النموذج الخاص بك. نظرًا ON‏ 
هذا الوكيل يتخذ إجراءات عشوائيةني كل إطارء فسنشير إليه على أنه وكيلنا الأساسي العشوائي.في 
هذه الحالة. ستقارن بالعامل الأساسي هذا لفهم مدى جودة أداء وکلائك‌ني خطوات لاحقة. 
مع «Gym‏ يمكنك الحفاظ على حلقة اللعب الخاصة بك. هذا يعني أنك تتعامل مع كل خطوةفي 
تنفیذ اللعبة:في كل خطوة تمنح gym‏ حركة جديدة وتطلب من gym‏ تحديد حالة اللعبة.في هذا 
البرنامج التعليمي» حالة اللعبة هي مظهر اللعبةفي خطوة زمنية معينة» وهي بالضبط ما ستراه إذا 
باستخدام محرر النصوص المفضل لديك قم بانشاء ملفا بايثون باسم 
bot 2 random.py‏ هن سستخدم nano‏ 

nano bot 2 random.py 
ملاحظة: خلال هذا الدليل» تتم محاذاة أسماء برامج البوت مع رقم الخطوة الذي تظهر به. بدلاً‎ 
بدلا‎ bot \_2\_random. py من الترتيب الذي تظهر به. ومن ثم فان هذا البوت يسمى‎ 
-bot\_1\_random.py من‎ 
ابدأ هذا السكريبت بإضافة الأسطر المميزة التالية. تتضمن هذه الأسطر كتلة تعليق تشرح ما‎ 
لاستيراد الحزم التي سيحتاجها هذا البرنامج النصي‎ import سيفعله هذا السكريبت وجملتي‎ 
في النهاية لكي يعمل:‎ 

AtariBot/bot_2_random.py 


۱۲۲ ۲۱ ۲ 


مشاريع تعلمم الآلة: باینون 


Bot 2 -- Make a random, baseline agent for the 


SpaceInvaders game. """ 


import gym 


import random 


أضف g.main äl‏ هذه الدال قم بانشاء بيئة اللعبة SpaceInvaders-v0‏ ثم قم بتهيئة 
اللعبة باستخدام ۵1۷ : 


/AtariBot/bot_2_random.py 


import gym 


import random 
def main () : 
env = gym.make ('SpaceInvaders-v0') 


env.reset ()‏ 
بعد ذلك. أضف دالة env. step‏ يمكن لهذه الدالة إرجاع آنواع القيم التالية: 
state o‏ الحالة الجديدة للعبة بعد تطبيق الإجراء المقدم. 
o‏ 24 ضياع : الزيادةفي النتيجة التي تتكبدها الحالة. على سبيل المثال» يمكن أن يحدث 
هذا عندما تدمر رصاصة GE‏ فضائياء وتزيد النتيجة بمقدار 50 نقطة. بعد ذلك 
0 26102720-5 .ني لعب أي لعبة قائمة على النتائج» يكون هدف اللاعب هو تعظيم 
النتيجة. هذا مرادف لتعظيم المكافأة الإجمالية. 
done e‏ ما إذا كانت الحلقة قد انتهت آم لا ۰ والتي تحدث Sole‏ عندما يفقد اللاعب 
كل الأرواح. 
iinfo e‏ المعلومات الدخيلة التی ستضعها جانباني الوقت الحالی. 
سوف تست تستخدم 0 لحساب إجمالى مكافأتك. ستسهة ستستخدم Casi done‏ لتحديد موعد 
وفاة اللاعب. والذي سیگون عندما 6 ترجع -True‏ 


آضف حلقة اللعبة التالية» والتی ترشد اللعبة إلى التکرار حتی يموت اللاعب: 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


/AtariBot/bot_2_random.py 


def main(): 
env = gym.make('SpaceInvaders-v0"') 
env.reset )( 

episode reward = 0 

while True: 


action = env.action_space.sample() 
مر‎ Peward, done, = env.step (action) 
episode reward += reward 
if done: 
print ('Reward: 55" tepisode reward) 
break 


آخیرا: قم بتشغيل دالة main‏ قم بتضمین  name‏ للتأكد من أن 21 تعمل فقط 
عند استدعائها مباشرة باستخدام bot _2_random.py‏ عمط م. إذا لم تقم بإضافة 
if‏ للتحقق» فسیتم Gila main Jas‏ عند Las‏ ملف بایثون. حتی عند استیراد الملف. 
وبالتالي فمن الممارسات الجيدة وضع الكودفي main dl‏ يتم aias‏ فقط عندما یکون 


. ۲ main == ' name 


/AtariBot/bot_2_random.py 

def main(): 

if done: 

print ('Reward 69۲ 5 episode reward) 


break 
Lf name == ۲ main ': 
main )( 


احفظ الملف واخرج من المحرر. إذا كنت تستخدم enano‏ فافعل ذلك بالضغط على 

«CTRL+X, Y‏ ثم ENTER‏ بعد ذلك. قم بتشغیل السکریبت الخاص بك عن طریق کتابة: 
python bot 2 random.py‏ 

سيقوم برنامجك باخراج رقم مشابه لما يلي. لاحظ أنهفي كل مرة تقوم فيها بتشغيل الملف 


Output 
Making new env: SpaceInvaders-v0 
Reward: 210.0 


مشاريع تعلمم الآلة: بايثون 


هذه النتائج العشوائية تمثل مشكلة. من أجل إنتاج عمل يمكن للباحثين والممارسين الآخرين 
الاستفادة منه. يجب أن تكون نتائجك وتجاربك قابلة للتكرار. لتصحيح ذلك آعد فتح 
nano bot 2 random.py‏ 


5 3 


env = بعد‎ random.seed(0) اضف‎ 1 random بعد‎ 


.gym.make ('SpaceInvaders-v0')‏ أضف env.seed(0)‏ تعمل 
هذه الخطو ط معا على seed"‏ " البيئة من خلال نقطة انطلاق متسقف مما يضمن إمكانية تكرار 

النتائج دائمًا. سيتطابق ملفك النهائي مع ما يلي تماما: 
/AtariBot/bot_2_random.py‏ 


۲۲ ۲۲ ۲ 


Bot 2 -- Make a random, baseline agent for the 
SpaceInvaders game. 


۲۲ ۲ ۲ 


import gym 
import random 


random. seed (0) 
def main(): 


env = gym.make('SpaceInvaders-v0') 
env.seed (0) 


env.reset )( 
episode reward = 0 
while True: 


action = env.action_space.sample() 
_, reward, done, _ = env.step (action) 
episode reward += reward 
if done: 
print ('Reward: 65۲ 56۵۴0159006 reward) 
break 
if **name** == '**main**!: 


main )(‏ 
احفظ الملف وأغلق المحرر, ثم قم بتشغيل السكريبت عن طريق كتابة ما يليفي التیرمینال: 
python bot 2 random.py‏ 
سيخرج هذا المكافأة التالية بالضبط: 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


Output 
Making new env: SpaceInvaders-v0 
Reward: 555.0 


هذا هو البوت الأول الخاص بك. على الرغم من أنه غير ذكي إلى حد ما لأنه لا يأخذفي الحسبان 
البيتة المحيطة عند اتخاذ القرارات. للحصول على تقدير أكثر موثوقية لأداء البوت الخاص بك 
يمكنك تشغيل الوكيل لعدة حلقاتفي وقت واحد. والإبلاغ عن المكافآت التي تم حساب 
متوسطها عبر حلقات متعددة. للتأكد من ذلك أعد فتح الملف أولاً: 


nano bot 2 random.py 


بعد )0( random. seed‏ ۰ آضف السطر المميز التالی الذي يخبر الوكيل بلعب اللعبة لمدة 
10 حلقات: 


random. seed (0) 
num episodes = 10 


مباشرة بعد )0( env. seed‏ » ابدأ قائمة جديدة من المکافات: 
/AtariBot/bot_2_random.py‏ 


env.seed (0) 
rewards = [|] 


راجع كل التعليمات البرمجية من () env. reset‏ إلى نهاية () 2212 في حلقة for‏ مع 
تكرار num_episodes‏ تأكد من وضع مسافة بادئة لكل سطر من () Jenv. reset‏ 
break‏ بأربع مسافات: 


/AtariBot/bot_2_random.py 


def main(): 
env = gym.make('SpaceInvaders-v0"') 
env.seed (0) 
rewards = [] 
for in range(num_episodes) : 
env.reset () 
episode reward = 0 
while True: 


مشاريع تعلم الآلة: باینون 


قبل Btls break‏ وهو السطر الأخير حاليًا من حلقة اللعبة الرئيسيةء أضف مكافأة الحلقة 
الحالية إلى قائمة جميع المكافآت: 

/AtariBot/bot_2_random.py 

if done: 

print ('Reward: %s' 5 episode reward) 


rewards.append(episode_ reward) 
break 


في نهاية دالة main‏ قم بالابلاغ عن متوسط المكافأة: 
/AtariBot/bot_2_random.py‏ 
def main():‏ 


print ('Reward: %s' % episode reward) 
break 
print ('Average reward: %.2f' % (sum(rewards) / 


len (rewards) ) ) 


ستتم محاذاة ملفك OY‏ مع ما يلي. يرجى ملاحظة أن مقطع التعليمات البرمجية التالي يتضمن 
بعض التعليقات لتوضيح الأجزاء الرئيسية من السكريبت: 


/AtariBot/bot_2_random.py 


Bot 2 -- Make a random, baseline agent for the 
SpaceInvaders game. 


import gym 
import random 


random.seed(0) # make results reproducible 
num episodes = 10 


def main(): 
env = gym.make('SpaceInvaders-v0') # create 
the game 
env.seed(0) # make results reproducible 
rewards = [|] 


الفصل السادس: التحيز التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


for _ in range (num episodes): 
env.reset () 
episode reward = 0 
while True: 
action = env.action_space.sample() 
_, reward, done, _ 
env.step(action) # random action 
episode reward += reward 
if done: 
print ('Reward: 50۲ % 
episode reward) 
rewards.append(episode reward 
) 
break 
print ('Average reward: %.2f' % (sum(rewards) / 
len (rewards) ) ) 
if _ name == ' main ': 
main () 


python bot 2 random.py 
سيؤدي هذا إلى طباعة متوسط المكافأة التالية» بالضبط:‎ 


Output 


Making new env: SpaceInvaders-v0 


Average reward: 163.50‏ 
لدينا OV‏ تقدير أكثر موثوقية لدرجة خط الأساس للتغلب عليها. لإنشاء وكيل متفوق. على الرغم 
من ذلك. ستحتاج إلى فهم إطار عمل التعلم المعزز. كيف يمكن للمرء أن يجعل الفكرة المجردة 
"لصنع القرار" أكثر واقعية؟ 
فهم التعلم المعزز 
في أي ad‏ هدف اللاعب هو زيادة نقاطه إلى الحد الأقصی.ني هذا الدلیل. يُشار إلى درجة 
اللاعب على آنها مكافأته. لتعظیم مکافاتهم. يجب أن یکون اللاعب قادرا على Bale]‏ بناء قدراته 
الاجراء. تسمی دالة صنع القرار لدینا بالسياسة؛ تقبل السياسة الحالة کمدخلات و "تقر" اجراء: 


policy: state -> action 


مشاريع تعلم الآلة: باینون 


لبناء مثل هذه الدالةء سنبداً بمجموعة محددة من الخوارزميات‌في التعلم المعزز تسمى 
خوارزميات.عصندمةء.1- 0 لتوضيح ذلك. Gee‏ اعتبارك الحالة الأولية للعبة» والتي 
سنسميها 360 5:سفينة الفضاء الخاصة بك والفضائيين جميعهمني مواقعهم الأولية. بعد 
ذلك. افترض أن لدينا إمكانية الوصول إلى "0-6216" سحري يخبرنا مقدار المكافأة التي 
سيكسبها كل إجراء: 

STATE ACTION REWARD 


state0 shoot 10 
state0 right 3 


stateO left 3 


سيؤدي إجراء shoot‏ إلى زيادة مكافأتك إلى الحد الأقصى. حيث ينتج عنه المكافأة بأعلى 
قيمة: 10. كما ترى. يوفر جدول Q‏ طريقة مباشرة لاتخاذ القرارات. بناءٌ على الحالة المرصودة: 


policy: state -> look at Q-table, pick action with 
greatest reward 


ومع ذلك تحتوي معظم الألعاب على عدد کبیر جدا من الحالات لإدراجهاني جدول.ني مثل هذه 
الحالات. يتعلم وکیل Q-Learning‏ دالة © Yu‏ من Q-table‏ .نحن نستخدم دالة Q‏ هذه 
بشكل مشابه LES‏ استخدامنا لجدول Q‏ سابقًا. تعطينا إعادة كتابة مدخلات الجدول كدوال ما 


Q(state0, shoot) = 0 
Q(state0, right) = 3 
Q(state0, left) = 3 


بالنظر إلى حالة معينة» من السهل علينا اتخاذ قرار: فنحن ببساطة ننظر إلى كل إجراء محتمل 
ومكافأته. ثم نتخذ الاجراء الذي يتوافق مع أعلى مكافأة متوقعة. إعادة صياغة السياسة السابقة 
بشكل أكثر رسمية. لدينا: 

policy: state -> argmax {action} Q(state, action) 
هذا يفي بمتطلبات دالة اتخاذ القرار: نظرًا لوجود حالةفي اللعبةء فانه يقرر اجراء ما. ومع دلك.‎ 
واجراء. لتقدير‎ Ue JS Q(state, action)». هذا الحل يعتمد على‎ ob 
اعتبارك ما يلي:‎ ber ©«Q(state, action) 


الفصل السادس: التحيز التباين للتعلم المعرز العمیق: كيفية بناء بوت Atari J‏ 


OpenAl Gym باستخدام‎ 


بالنظر إلى العديد من الملاحظات حول حالات الوكيل وأفعاله ومکافاته. يمكن للمرء 
الحصول على تقدير للمكافأة لكل حالة وإجراء من خلال أخذ متوسط التشغيل. 
Space Invaders‏ هي لعبة ذات مكافآت متأخرة: BIS‏ اللاعب عندما يتم تفجير 
الفضائي وليس عندما يطلق اللاعب النار. ومع ذلك. فإن قيام اللاعب بعمل ما عن 
طريق التسديد هو الدافع الحقيقي للمكافأة. بطريقة cle‏ يجب أن تخصص دالة © 
(stated, shoot)‏ مكافأة إيجابية. 


تم ترميز هاتين البصيرتينفي المعادلات التالية: 


Q(state, action) = (1 - learning rate) * Q(state, 


action) + 
learning rate * Q target 


Q target = reward + discount factor * max faction" } 


Q(state', action') 


تستخدم هذه المعادللات التعريفات التالية: 


state‏ الحالةفي الوقت الحالي. 

action‏ الاجراء الذي تم اتخاذهفي الوقت الحالي الخطوة. 

reward‏ مكافأة الخطوة الزمنية الحالية. 

. الحالة الجديدة للخطوة التالية» بالنظر إلى آننا اتخذنا الاجراء ۾‎ state 
جمیع الاجراءات الممكنة.‎ action 

rate‏ 170 17۳71 62 1: معدل التعلم. 

discount_factor‏ :عامل madl‏ > مقدار المكافأة "المتدهورة" عند نشرها. 


للحصول علی شرح کامل لهاتین المعادلتین. راجع هذه المقالة حول Q-Learnings¢3‏ . 
مع وضع هذا الفهم للتعلم المعززي الاعتبار كل ما تبقی هو تشغیل اللعبة Glai‏ والحصول على 


تقدیرات قيمة Q‏ لسياسة جديدة. 


الخطوة 3 - إنشاء عامل Q-Learning‏ بسيط ل Frozen Lake‏ 

الآن بعد أن أصبح لديك وكيل آساسي. يمكنك البدءني إنشاء وكلاء جدد ومقارنتهم بالأصل.في 
هذه الخطوق ستنشیع وکیلا یستخدم «Q-Learning‏ وهي تقنية تعلم معزز تستخدم لتعليم 
الوکیل الإجراء الذي يجب اتخاذهفي حالة معينة. سیلعب هذا الوکیل لعبة جدیدق -FrozenLake‏ 
تم وصف إعداد هذه اللعبة على النحو التالي على موقع :Gym‏ 


مشاريع تعلم الآلة: باینون 


"الشتاء هنا .كنت أنت وأصدقاؤك تتجولون حول طبق فریسب يفي الحديقة عندما قمت برمية iy‏ 
ترکت الطبق الطائر وسط البحيرة. يك خجمید الما ا ولكن هناك عدد قليل من الثقوب 
حیث ذاب الجلید. إذا Soleo‏ إحدى تلك الثقوب» فسوف تسقطفٍ الماء المتجمد.في هذا 
الوقت. یوجد J padi‏ لعبة الطبق الطاثر, لذلك من الضروري للغاية أن JES‏ عبر البحيرة 
وتسترج عالقرص. ومع ذلك, فان الجلید زلق, لذلك لن تتحرك دائمّافي الاتجاه الذي تریده . 


يوصف السطح باستخدام شبكة مثل ما بلى: 
SFFF (S: starting point, safe)‏ 
FHFH (F: frozen surface, safe)‏ 
FFFH (H: hole, fall to your doom)‏ 
HFFG (G: goal, where the frisbee is located)‏ 


يبدأ اللاعب من أعلى الیسار. ويُشار إليه Spe Jb‏ . ويشق طريقه إلى الهدف‌في أسفل اليمينء 
ويُشار إليه بالرمز ©. الإجراءات المتاحة هی اليمين واليسار والأعلى والأسفل. والوصول إلى 
نتيجة الهدف بنتيجة 1. يوجد عدد من الثقوب: يشار إليها بالرمز H‏ » ويؤدي الوقوعفي واحدة 
على الفور إلى الحصول على درجة 0. 
في هذا القسم. ستقوم بتطبیق عامل Q-Learning‏ بسیط. باستخدام ما تعلمته سابقاء ستنشوع 
وکیلا یتبادل بين الاستکشاف exploration‏ والاستغلال G-exploitation‏ هذا السیاق. oe‏ 
الاستکشاف أن الوکیل یتصرف بشکل عشوائي, والاستغلال يعني أنه یستخدم قیم Q‏ لاختیاو ما 
يعتقد أنه الاجراء الأمثل. ستقوم Cai‏ بانشاء جدول للاحتفاظ بقیم0) . وتحدیثه بشکل تدريجي 
حت يعمل الوکیل ویتعلم. 
قم بعمل نسخة من السکریبت الخاص بك من الخطوة 2: 

cp bot 2 random.py bot 3 q table.py 
ثم افتح هذا الملف الجديد للتعديل:‎ 

nano bot 3 q table.py 

ابدأ بتحديث التعليق أعلى الملف الذي يصف الغرض من السكريبت. نظرًا GY‏ هذا مجرد تعلیق. 
فإن هذا التغيير ليس ضروريًا لكي يعمل السكريبت بشكل صحيح, ولكنه قد يكون مفیدا لتتبع 
ما يفعله السكريبت: 


/AtariBot/bot_3_q_table.py 


Bot 3 == Build simple gq-learning agent for 
FrozenLake 


الفصل السادس: التحيز التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


قبل إجراء تعديلات Labs‏ على السکریبت. ستحتاج إلى استيراد numpy‏ لادوات الجبر 
الخطي. أسفل bile import gym‏ أضف السطر المميز: 
/AtariBot/bot_3_q_table.py‏ 


Bot 3 -- Build simple g-learning agent for 
FrozenLake 


import gym 
import numpy as np 
import random 


random.seed(0) # make results reproducible 


:numpy أضف بذرة ل‎ random.seed(0) أسفل‎ 
/AtariBot/bot_3_q_table.py 
import random 


random.seed(0) # make results reproducible 
np.random. seed (0) 


بعد ذلك. اجعل حالات اللعبة متاحة. قم بتحديث سطر () env. reset‏ لقول ما يلي والذي 
يخزن الحالة الأولية state gid‏ المتغيرة: 

/AtariBot/bot_3_q_table.py 

for \_ in range (num episodes) : 


state = env.reset () 


قم بتحديث سطر (. . . ) 560 env.‏ ليقول التالي الذي يخزن الحالة state2. JU‏ 
ستحتاج إلى كل من state‏ الحالية والحالة التالية - 912162 - لتحديث دالقم) . 


/AtariBot/bot_3_q_table.py 


while True: 
action = env.action_space.sample() 


مشاريع تعلم الآلة: باینون 
state2, reward, done, _ = env.step(action)‏ 


state سطرا لتحديث المتغير‎ avi. episode reward += reward بعد‎ 


هذا يحافظ على المتغير state‏ محدثة للتكرار التالي» حيث ستتوقع أن تعكس state‏ 
الحالة الحالية: 


/AtariBot/bot_3_q_table.py 
nie True: 


episode reward += reward 
state = state2 
if done: 


فى خانة 30۳6 ۶ احذف بیان print‏ الذی يطبع مكافأةكل حلقة. بدلاً من US‏ ستخر- 
في ي يطب : من ی رم 
متوسط المكافأة على عدة حلقات. ستبدو الكتلة done‏ 12 كما يلى: 


/AtariBot/bot_3_q_table.py 


if done: 
rewards.append(episode_ reward) 
break 


بعد هذه التعدیلات. ستتطابق حلقة اللعبة مع ما يلي: 
/AtariBot/bot_3_q_table.py‏ 


for _ in range (num episodes): 
state = env.reset () 
episode reward = 0 
while True: 
action = env.action_space.sample() 
state2, reward, done, _ = 
env.step (action) 
episode reward += reward 
state = state2 
if done: 
rewards.append(episode reward) ) 
break 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


بعد ذلك. أضف قدرة الوكيل على الموازنة بين الاستكشاف والاستغلال. مباشرة قبل حلقة اللعبة 
الرئيسية (التي تبدأ ب (for...‏ آنشی جدول قیم :Q‏ 
/AtariBot/bot_3_q_table.py‏ 


Q = np.zeros((env.observation space.n, 
env.action_space.n) ) 
for _ in range (num episodes): 


ثم أعد كتابة الحلقة for‏ لكشف رقم الحلقة: 
/AtariBot/bot_3_q_table.py‏ 


Q = np.zeros((env.observation_ space.n, 
env.action_ space.n) ) 
for episode in range(l, num_episodes + 1): 


داخل while True‏ حلقة اللعبة الداخلية. تخلق noise‏ يتم أحياتًا إدخال الضوضاء 
أو البيانات العشوائية التى لا معنى لهاء عند تدريب الشبكات العصبية العميقة BY‏ يمكن أن 
تحسن أداء Boy‏ النموذج. لاحظ أنه كلما زادت الضوضاء قلت القيمفي [: -Q[state,‏ 
بمعنى آخره تشجع الضوضاء العالية الوكيل على استكشاف الإجراءات العشوائية: 
/AtariBot/bot_3_q_table.py‏ 
while True:‏ 
noise = np.random.random( (1,‏ 
env action spacen) 7‏ 


episode**2.) 
action = env.action_space.sample() 


لاحظ أنه مع زيادة «episodes‏ يقل مقدار الضوضاء بشكل تربيعي: مع مرور الوقت. 
يستكشف الوكيل أقل وأقل GY‏ يمكنه الوثوقفي تقييمه الخاص لمكافأة اللعبة والبدءفي استغلال 
معرفتها. 

قم بتحديث سطر action‏ لجعل وكيلك يختار الإجراءات وفقا Qevalued sted‏ . مع 
بعض الاستكشافات المضمنة: 


مشاريع تعلم الآلة: باینون 


/AtariBot/bot_3_q_table.py 


noise = np.random.random( (1, 
env.action_space.n) ) / 

(episode**2.) 

action = np.argmax(Q[state, :] + noise) 
state2, reward, done, _ = env.step(action) 


ستتطابق حلقة اللعبة الرئيسية بعد ذلك مع ما يلي: 
/AtariBot/bot_3_q_table.py‏ 


Q = np.zeros((env.observation_space.n, 
env.action_space.n) ) 
for episode in range(l, num episodes + 1): 
state = env.reset() 
episode reward = 0 
while True: 
noise = np.random.random( (1, 
env.action_space.n) ) / 
(episode**2.) 
action = np.argmax(Q[state, :] + noise) 
state2, reward, done, _ = env.step(action) 
episode reward += reward 
state = state2 
if done: 
rewards.append(episode_ reward) 
break 


بعد ذلك. ستقوم بتحديث جدول Q-value‏ باستخدام معادلة تحديث Bellman‏ وهي معادلة 
مستخدمة على نطاق واسع‌في التعلم الآلي للعثور على السياسة المثلىفي بيئة معينة. 

تتضمن معادلة Bellman‏ فكرتين وثيقتي الصلة بهذا المشروع. Syl‏ سيؤدي اتخاذ إجراء معين 
من حالة معينة عدة مرات إلى تقدير جيد لقيمة Q‏ المرتبطة بهذه الحالة والإجراء. تحقيقا لهذه 
الغاية» ستزيد عدد الحلقات التي يجب على هذا البوت تشغيلها من أجل إرجاع تقدير قيمة © 
أقوى. EE‏ يجب أن تنتشر المكافآت عبر الوقت. بحيث يتم تعيين مكافأة غير صفرية للإجراء 
الأصلي. هذه الفكرة واضحةني الألعاب ذات المكافآت المتأخرة؛ على سبيل المثال.في Space‏ 
LIS Invaders‏ اللاعب عندما يتم تفجير الكائن الفضائي وليس عندما يطلق اللاعب النار. 
ومع ذلك. فان اللاعب الذي يطلق النار هو الدافع الحقيقي للمكافأة. وبالمثل» يجب أن تقوم 
Ñl‏ © بتعيين shoot)‏ ,5362260 )مكافأة إيجابية. 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


:4000 لتساوي‎ num episodes قم بتحديث‎ VI 
/AtariBot/bot_3_q_table.py 
Ap. بو‎ 
num_episodes = 4000 
بعد ذلك. أضف المعلمات الفائقة الضرورية إلى الجزء العلوي من الملففي شكل متغيرين‎ 
آخرين:‎ 


/AtariBot/bot_3_q_table.py 


num_episodes = 4000 
discount factor = 0.6 
learning rats = 0.9 


Wel‏ قيمة Q‏ الجديدة المستهدفة» مباشرة بعد السطر الذي يحتوي على 
env.step(...)‏ 


/AtariBot/bot_3_q_table.py 
state2, reward, done, _ = env.step (action) 
Otarget = reward + discount factor * 


np.max(Q[state2, :]) 
episode reward += reward 


في السطر بعد Otarget‏ مباشرة حدّث جدول Q-value‏ باستخدام المتوسط المرجح لقيم 
© القديمة والجديدة: 
/AtariBot/bot_3_q_table.py‏ 


Qtarget = reward + discount factor * 


np.max(Q[state2, :]) 
Olstate, action] = (1-learning rate) * 


Olstatey,action] + learning rate * Oterger 
episode reward += reward 


تحقق من أن حلقة اللعبة الرئيسية تتطابق الآن مع ما يلي: 


مشاريع تعلم الآلة: باینون 


/AtariBot/bot_3_q_table.py 


Q = np.zeros((env.observation_ space.n, 

env.action_space.n) ) 

for episode in range(l, num episodes + 1): 
state = env.reset() 
episode reward = 0 
while True: 


noise = np.random.random((l1, 
env.action space.n)) / 
(episode**2.) 

action = np.argmax(Q[state, :] + 
noise) 


state2, reward, done, 

env.step (action) 

Qtarget = reward + discount factor 

* np.max(Q[state2, :]) 

۵ ] 912416, action] = ( 

l-learning rate) * Q[state, action] 

+ learning rate * Qtarget 

episode reward += reward 

state = state2 

if done: 
rewards.append(episode_ rewar) 
break 


لقد اكتمل الآن منطقناني تدريب الوكيل. كل ما تبقى هو إضافة آليات إعداد التقارير. 
على الرغم من أن بايثون لا تفرض فحص صارمًا للنوع. أضف SEL pi‏ إعلانات الدوال الخاصة 
بك من أجل النظافة.في الجزء العلوي من الملف. قبل السطر الأول ل 10و هون قم 
باستيراد نوع ‘List‏ 

/AtariBot/bot_3_q_table.py 


from typing import List 
import gym 


مباشرة بعد 9 . 0 = «learning rate‏ خارج main dls‏ قم بتعريف الفاصل الزمني 
و | لشكا للتقار ير ` 
/AtariBot/bot_3_q_table.py‏ 


الفصل السادس: التحيز التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


learning rate = 0.9 

report interval = 500 

report = '100-ep Average: %.2f . Best 100-ep 
Average: %.2f . Average: 

7,28 TA 


"(Episode %d) ۲ 
def main(): 


قبل main Ile‏ آضف Ilə‏ جديدة تملاً سلسلة report‏ هذى باستخدام قائمة جميع 
المكافات: 


/AtariBot/bot_3_q_table.py 


report = '100-ep Average: %.2f . Best 100-ep 


Average: %.2f . Average: 
5222 ۲ \ 


"(Episode %d) ۲ 

def print report (rewards: List, episode: int): 
"""Print rewards report for current episode 

- Average for last 100 episodes 

- Best 100-episode average across all time 

- Average for all episodes across time 


۲۲ ۲ ۲ 


9 


print (report 5 ( 


np.mean(rewards[-100:]), 

max ([np.mean(rewards[i:1i+100]) for i in 
range (len (rewards) - 100)]), 

np.mean (rewards), 

episode) ) 


def main(): 


:Space Invaders من‎ Yu Frozen Lake قم بتغيير اللعبة إلى‎ 
/AtariBot/bot_3_q_table.py 
def main(): 


env = gym.make('FrozenhLake-v0O') # create the gam 


بعد (...) 252620 . rewards‏ اطبع متوسط المكافأة على آخر 100 حلقة واطبع 
متوسط المكافأة عبر جميع الحلقات: 


مشاريع تعلم الآلة: باینون 


/AtariBot/bot_3_q_table.py 


if done: 
rewards.append(episode_ reward) 
Lt episode $ report interval == و‎ 


print report (rewards, episode) 


في نهاية الدالة () main‏ قم بالإبلاغ عن كلا المتوسطين مرة أخرى. افعل ذلك عن طريق 
استبدال السطر الذي يقراً: 


print ('Average reward:%.2f' 5 (sum(rewards) / 
len (rewards) ) ) 


مع السطر المميز التالي: 
/AtariBot/bot_3_q_table.py‏ 
def main():‏ 
break‏ 
print report (rewards, =)‏ 
أخيرّاء لقد أكملت وكيل Q-Learning‏ الخاص بك. تأكد من أن السكريبت الخاص بك 
/AtariBot/bot_3_q_table.py‏ 


Bot 3 -- Build simple gq-learning agent for 
FrozenLake 

۲۲ ۲۷ ۲ 

from typing import List 

import gym 

import numpy as np 

import random 


random.seed(0) # make results reproducible 
np.random.seed(0) # make results reproducible 


num_episodes = 4000 
discount factor = 0.8 
learning rate = 0.9 
report interval = 500 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


report = '100-ep Average: %.2f . Best 100-ep 
Average: %.2f . Average: 


9۶,2 ' \ 
"(Episode %d) ۲ 


def print report(rewards: List, episode: int): 
"""Print rewards report for current episode 
- Average for last 100 episodes 
- Best 100-episode average across all time 
- Average for all episodes across time 


print (report > ( 


np.mean (rewards [-100:]), 
max ([np.mean (rewards[i:i+100]) for i in 
range (len (rewards) - 
100)]), 
np.mean (rewards), 
episode)) 
def main(): 
env = gym.make ('FrozenLake-v0') # create the 
game 
env.seed(0) # make results reproducible 
rewards = [|] 


Q = np.zeros((env.observation_ space.n, 
env.action_space.n) ) 
for episode in range(l, num episodes + 1): 
state = env.reset() 
episode reward = 0 
while True: 
noise = np.random.random( (1, 
env.action_space.n) ) / 
(episode**2.) 
action = np.argmax(Q[state, :] + 
noise) 
state2, reward, done, _ = 
env.step (action) 
Qtarget = reward + discount factor 
* np.max(Q[state2, :]) 
Q[state, action] = ( 
1-learning rate 
) * Q[state, action] + 
learning rate * Qtarget 
episode reward += reward 


مشاريع تعلم الآلة: بايثون 


state2 


rewards.append(episode reward 


report _ interval 


print report (rewards, 
episode) 
break 


9 


if episode % 


) 


1) 


state 
if done: 


print report(rewards, - 
if name == ' main ': 
main () 


python bot 3 q table.py 


سيتطابق إخراجك مع ما يلي: 
Average: 0.12‏ 
Averag 0.24‏ 
Averag 0.48‏ 
Average: 0.55‏ 
Average: 0.55‏ 
Average: 0.68‏ 
Average: 0.71‏ 
Average: 0.78‏ 
Average: 0.78‏ 


00-ep 


100-ep 


100-ep 


100-ep 


100-ep 


100-ep 


Best 1 


Best 1 


Best 1 


Best 1 


Best 


Best 


Best 


Best 


.63 


56 


56 


100-ep Average: 


100-ep Average: 


100-ep Average: 


100-ep Average: 


100-ep Average: 


100-ep Average: 


100-ep Average: 


Output 


Average: 0.03 
(Episode 500) 


Average: 0.09 
(Episode 1000) 


Average: 0.19 
(Episode 1500) 
100-ep Averag 
Average: 0.25 
(Episode 2000) 
100-ep Averag 
Average: 0.29 
(Episode 2500) 


Average: 0.32 
(Episode 3000) 


Average: 0.36 
(Episode 3500) 


Average: 0.40 
(Episode 4000) 


Average: 0.40 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


(Episode -1)‏ 
لديك الآن أول بوت غير عادي للالعاب. لكن دعونا نضع هذا متوسط المكافأة البالغ 78 . 0 في 
المنظور الصحيح. وفقا لصفحة «Gym FrozenLake‏ فإن "حل" اللعبة يعني الوصول إلى معدل 
0 حلقة يبلغ 78 . 0. بشكل غير رسمي» "الحل" يعني "لعب اللعبة بشكل جيد للغاية". بینما 
ليس في وقت قياسي» ob‏ وکیل جدول Q‏ قادر على حل GFrozenLake‏ 4000 حلقة. 
ومع ذلك. قد تكون اللعبة أكثر تعقیدا. هناء استخدمت جدولا لتخزين جميع الحالات ال 144 
المحتملة. لكن ضعفي اعتبارك أن tic tac toe‏ يوجد فيها 19683 حالة محتملة. وبالمئل ضع 
فى اعتبارك Space Invaders‏ حيث يوجد عدد كبير جدا من الحالات التى يمكن حسابها. 
jie‏ © غير مستدام oY‏ الألعاب تزداد تعقیدا. لهذا السبب. تحتاج إلى طريقة ما لتقريب 
جدول ©. مع استمرار التجريب‌في الخطوة التالية. ستصمم دالة يمكنها قبول الحالات 
والإجراءات كمدخلات وإخراج قيمة ©. 
الخطوة 4 - بناء عامل Q-Learning‏ العميق ل Frozen Lake‏ 
في التعلم المعزز, تتنباً الشبكة العصبية بشكل فعال بقيمة Q‏ بناءً على مدخلات الحالة والاجراء 
باستخدام جدول لتخزين جميع القيم الممکنة. لكن هذا يصبح غير مستقرفي الألعاب المعقدة. 
بدلاً من ذلك. يستخدم التعلم المعزز العميق شبكة عصبية لتقريب دالة ©. لمزيد من التفاصیل» 
راجع فهم -Deep Q-Learning‏ 
للتعود على 16090111017" مكتبة التعلم العميق قمت بتثبيتهافي الخطوة ۰1 ستعيد تطبيق کل 
المنطق المستخدم حتى الآن مع تجريدات Tensorflow‏ وستستخدم شبكة عصبية من أجل 
تقريب دالة Q‏ الخاصة بك. ومع ذلك ستكون شبكتك العصبية بسيطة للغاية: إخراجك (5) 9 
هو مصفوفة W‏ مضروبةنی المدخلات الخاصة بك 5. یعرف هذا بالشبكة العصبية بطبقة واحدة 


للتکران فإن الهدف هو إعادة تنفيذ جمیع المنطق من البوتات التي قمنا ببنيها بالفعل باستخدام 
تجريدات Tensorflow‏ .سيؤدي ذلك إلى جعل عملياتك أكثر أهمية حيث يمكن ل 
7 بعد ذلك إجراء جميع الحسابات على وحدة معالجة الرسومات. 
ابدأ بتكرار نص جدول © من الخطوة 3: 

cp bot_3 q table.py bot_4 q network.py 


ثم افتح الملف الجديد باستخدام nano‏ أو محرر النصوص المفضل لديك: 


مشاريع تعلم الآلة: بايثون 


nano bot 4 q network.py 
أولاًء قم بتحديث التعليق أعلى الملف:‎ 


/AtariBot/bot_4_q_network.py 


۲۲ ۲۲ ۲ 


Bot 4 -- Use Q-learning network to train bot 


بعد ذلك. استيراد حزمة Tensorflow‏ عن Gb‏ إضافة توجيه import‏ مباشرة اسفل 
-import random‏ بالإضافة إلى ذلك« tf.set_radon_seed(0) asl‏ 
مباشرة أسفل )0( np. random. seed‏ .سيضمن هذا إمكانية تكرار نتائج هذا السكريبت 
في جميع الجلسات: 

/AtariBot/bot_4_q_network.py 


import random 
import tensorflow as tf 


random. seed (0) 
np.random.seed (0) 
tf£.set_random_seed (0) 


أعد إنشاء المعلمات الفائقة الخاصة GEL‏ الجزء العلوي من الملف لمطابقة ما يلى وإضافة دالة 
تسمى exploration probability‏ » والتى ستعيد احتمالية الاستكشافني كل 
خطوة. تذكر Gaal‏ هذا السیاق. یعنی "الاستكشاف" اتخاذ إجراء عشوائی بدلاً من اتخاذ الإجراء 
الموصى بهفي تقديرات قيمة ©: 

/AtariBot/bot_4_q_network.py 


num_episodes = 4000 

discount factor = 0.99 

learning rate = 0.15 

report interval = 500 

exploration probability = lambda episode: 50. / 
(episode + 10) 


report = '100-ep Average: %.2f . Best 100-ep 
Average: %.2f . Average: 


32 2۶ ' \ 
"(Episode %d) ۲ 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


خلالها تحويل المتغيرات إلى شكل يساعد خوارزميات التعلم الآلي على عمل تنبؤات أفضل. إذا 
كنت ترغبفي معرفة المزيد حول الترميز الواحد الساخن. فيمكنك التحقق من أمثلة الخصومةفي 
الرؤية الحاسوبية: كيفية إنشاء عامل فلتر الكلب القائم على العاطفة ثم خداعه. 

مباشرة أسفل ...= waalireport‏ دالة :one_hot‏ 


/AtariBot/bot_4_q_network.py 


report = '100-ep Average: %.2f . Best 100-ep 


Average: %.2f . Average: 


32 2۶ ' ١ 
"(Episode 50( ۲ 


def one hot (i: int; my int) => 0 تق القع‎ 
"""Tmplements one-hot encoding by selecting the ith 
standard basis 

vector" wee 

return np.identity(n) [i].reshape((l1, -1)) 


def print report(rewards: List, episode: int): 
قبل القيام‎ . Tensorflow بعد ذلك» ستقوم بإعادة كتابة منطق الخوارزمية باستخدام تجریدات‎ 
لبياناتك.‎ ASE بذلك. ستحتاج آولا إلى |ٍنشاء عناصر‎ 


فى دالتك main‏ أسفل 1[ b,tlerewards=‏ آدخل المحتوی الممیز التالی. هنا. حددت 
عناصر نائبة لملاحظتك‌ي الوقت t‏ (مثل (obs_t_ph‏ والوقت 1 + مثل 
(obs tpl ph‏ بالاضافة إلى العناصر النائبة للاجراء والمكافأة والهدف ©: 


/AtariBot/bot_4_q_network.py 


def main(): 


env = gym.make('FrozenLake-v0') # create the gam 
env.seed(0) # make results reproducible 
rewards = [|] 


# 1. Setup placeholders 
Mm obs, nN actions = NV. observation space.n, 
env.action space.n 


مشاريع تعلم الآلة: بايثون 


obs € ph = tf.placeholder(shape=[1, n_obs], 
dtype=tf.float32) 

obs tpl ph = tfi,placeholder (shapse=(1, n obs], 
dtype=tf.float32) 

act ph = te.placeholder(tf.intsz, shape=(} ) 
rew_ph = tf. placeholder (shape=(), 
dtype=tf.float32) 
gq target ph = tf.placeholder(shape=([1, 

n actions], dtype=tf.float32) 

Q = np.zeros((env.observation_ space.n, 
env.action_space.n) ) 

for episode in range(l, num episodes + 1): 


مباشرة أسفل السطر الذي يبدأ ب = jolig target ph‏ الأسطر المميزة التالية. يبدأ 
هذا الرمز الحساب الخاص بك عن طريق حساب a)‏ ,۰۵65 لجميع a‏ لجعل q_current‏ 
و( QU’,‏ . للجمیع لجعل ۲۵796 : 


/AtariBot/bot_4_q_network.py 


rew_ph = tf.placeholder (shape=(), 
dtype=tf.float32) 

q_target_ph = tf.placeholder(shape=[1, 
n actions], dtype=tf.float32) 


# 2. Setup computation graph 

W = tf.Variable(tf.random_uniform([n_obs, 
mn actions], 0, SOL) 
q = 

q 


Current tfi.matmul (obs _t_ph, W) 
target = tfi.matmul(obs tpl ph; W) 


Q = np.zeros ((env.observation_space.n, 
env.action_space.n) ) 
for episode in range(l, num episodes + 1): 


مرة أخرى أسفل السطر الأخير الذي آضفته مباشرةء أدخل الكود المميز التالی. أول سطرين 
مکافئین للسطر المضاففي الخطوة 3 التي تحسب ‘Otarget‏ حيث: 


Otarget = reward + discount_factor x 
np.max(Q[state2, :]) 


يحدد السطران التاليان خسارتك. بينما يحسب السطر الأخير الاجراء الذي يزيد قيمة Q‏ الخاصة 
بك: 


الفصل السادس: التحيز التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


/AtariBot/bot_4_q_network.py 


q current = tf.matmul (obs t_ph, W) 
q target = tf.matmul(obs tpl ph, W) 


q_target_max = tf.reduce_max(q target ph, 
axis=1) 

Gq target sa = rew ph + discount factor * 

q target max 

q current sa = q current(0, act ph] 

grror = tf. reduce sum(tf.sguare(qg target sa = 
q_current_sa)) 

pred aot ph = tf.argmax(q current, 1) 


Q = np.zeros((env.observation_ space.n, 
env.action_ space.n) ) 
for episode in range(l, num episodes + 1): 


بعد إعداد الخوارزمية ودالة الخسارة. حدد المحسن الخاص بك: 
/AtariBot/bot_4_q_network.py‏ 


error = tf.reduce_sum(tf.square(q target _ sa - 
q_current_sa)) 
pred_act_ph = tf.argmax(q_ current, 1) 


# 3. Setup optimization 

trainer = 

Ci. train.GradientdescentOptimizer (learning fat 
e-learning rate) 

update model = trainer.minimize (error) 


Q = np.zeros((env.observation_ space.n, 
env.action_ space.n) ) 
for episode in range(l, num episodes + 1): 


بعد ذلك. قم بإعداد جسم حلقة اللعبة. للقيام tly‏ تمرير البيانات إلى العناصر النائبة 
وتجريدات «Tensorflow‏ ستتعامل مع الحساب على وحدة معالجة الرسومات. مع إرجاع 


نتيجة الخوارزمية. 


مشاريع تعلم الآلة: باینون 


ابدأ بحذف جدول © القديم والمنطق. على وجه التحدید. احذف الأسطر التي تحدد Q‏ (قبل 
for il>‏ مباشرة) noises‏ (في actions «(while il>‏ < و Otarget‏ و 
.O[state, action]‏ أعد تسمية state‏ إلى state2) obs_t‏ إلى obs tpl‏ 
لمحاذاة العناصر النائبة ل Tensor‏ التي قمت بتعيينها مسبق. عند الانتهاء ستتطابق حلقة for‏ 
مع ما يلي: 

/AtariBot/bot_4_q_network.py 


# 3. Setup optimization 

trainer = 
tf.train.GradientDescentOptimizer (learning rat 
e=learning rate) 

update model = trainer.minimize (error) 


for episode in range(l, num episodes + 1): 
obs t = env.reset )( 
episode reward = 0 
while True: 
obs tpl, reward, done, _ = 
env.step (action) 


episode reward += reward 
obs t = obs tpl 
if done: 


مباشرة فوق حلقة for‏ أضف السطرين المميزين التاليين. هذه الخطوط تقوم بتهيئة جلسة 
7 التی تدير بدورها الموارد اللازمة لتشغيل العمليات على وحدة معالجة 
الرسومات. يقوم oe‏ الثاني بتهيئة جميع المتغيراتني الرسم البياني الحسابي الخاص بك؛ 
على سبيل المثال. تهيئة الأوزان إلى 0 قبل تحديثها. بالإضافة إلى ذلك ستقوم بتداخل الحلقة 
for‏ داخل تعليمة with‏ لذلك ضع مسافة Sob‏ لحلقة for‏ بأكملها بأربع مسافات: 


/AtariBot/bot_4_q_network.py 


trainer = 
tf.train.GradientDescentOptimizer (learning rat 
e=learning rate) 

update model = trainer.minimize (error) 


with tf.Session() as session: 
session.run(tf.global variables initiali 
zer()) 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


for episode in range(1,num_episodes+ 1): 
obs t = env.reset )( 


قبل السطر الذي يقرأ = _ obs _ tpl, reward, done,‏ 
env. step (action)‏ أدخل الأسطر التالية لحساب action‏ يقيم هذا الرمز العنصر 


/AtariBot/bot_4_q_network.py 


while True: 
# 4. Take step using best action or 
random action 
obs ۲ oh = one höt(0bs t; fobs) 
action = besson. rum(pred act ph, 
feed dict=(obs t ph? 
öbs tonr) TO] 
if np.random.rand(l) < 
exploration probability (episode) : 
action = env.action space.sample () 


بعد السطر الذي يحتوي على ٠ env.step(action)‏ أدخل ما يلي لتدريب الشبكة 
العصبية على تقدير دالة Q-value‏ الخاصة بك: 


/AtariBot/bot_4_q_network.py 


obs_tpl, reward, done, _ = env.step (action) 
# 5. Train model 
obs_tpl_oh = one hot (oba tpl, n obs) 
Gq target val = session.run(q target, 
beso 9 
obs tpl ph: obs tpl oh 
}) 
session.run(update model, feed dict={ 
obs t ph: obs t oh, 
rew phi reward; 
q target ph: q target val; 
act phi و‎ 
}) 


episode reward += reward 


مشاريع تعلم الآلة: بايثون 


سيطابق ملفك النهائی كود المصدر هذا: 


/AtariBot/bot_4_q_network.py 


Bot 4 -- Use Q-learning network to train bot 


۲۲ ۲۲ ۲ 


from typing import List 
import gym 
import numpy as np 
import random 

import tensorflow as tf 


random. seed (0) 
np.random.seed (0) 
tf.set_random_seed (0) 


num_episodes = 4000 
discount factor = 0.99 
learning rate = 0.15 
report interval = 500 


exploration probability = lambda episode: 50. / 
(episode + 10) 


report = '100-ep Average: %.2f . Best 100-ep 
Average: %.2f . Average: 


2 2۶ ' ١ 
"(Episode %d) ۲ 


def one hot(i: int, n: int) -> np.array: 
"""Implements one-hot encoding by selecting 
the ith standard basis 
vector" wee 
return np.identity(n) [i].reshape((1, -1)) 
def print report(rewards: List, episode: int): 
"""Print rewards report for current episode 
- Average for last 100 episodes 
- Best 100-episode average across all time 
- Average for all episodes across time 


۲۲ ۲۲ ۲ 


print (report % ) 
np.mean(rewards[-100:]), 
max([np.mean(rewards[i:i+100]) for i in 
range (len (rewards) - 

100)]), 

np.mean (rewards), 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


episode) ) 

def main(): 
env = gym.make('FrozenLake-v0') # create the 
game 
env.seed(0) # make results reproducible 
rewards = [|] 
# 1. Setup placeholders 


n_obs, n_actions env.observation_ space.n, 


env.action space.n 


obs t_ph = tf£.placeholder(shape=[1, n_obs], 
dtype=tf.float32) 

obs tpl ph = tf.placeholder(shape=[1, n_obs], 
dtype=tf.float32) 

act ph = tf.placeholder (tf.int32, shape=()) 
rew_ph = tf.placeholder (shape=(), 
dtype=tf.float32) 

q_target_ph = tf.placeholder(shape=[1, 

n actions], dtype=tf.float32) 


Setup computation graph 
tf£.Variable(tf.random_uniform([n_obs, 


0, 0.01(( 

tf.matmul (obs t_ph, W) 
tf.matmul (obs tpl ph, W) 

x Lf.reduce_max(q target_ph, 


rew ph + discount factor * 
X 
a q_current[0, act_ph] 


actions] 


r 


q target_ ma 
axis=1) 

q_target_sa 
q_target_ma 
q cürrent s 


error tf.reduce_sum (tf.square (q target _ sa - 
q current _ sa)) 


pred act_ph = tf.argmax(q current, 1) 
# 3. Setup optimization 
trainer = 


tf.train.GradientDescentOptimizer (learning rat 
e=learning rate) 

update _ model trainer.minimize (error) 

with tf.Session() as session: 
session.run(tf.global variables initializer )(( 
for episode in range(l, num episodes + 1): 

obs t env.reset )( 

episode reward 0 


مشاريع تعلم الآلة: باینون 


while True: 


# 4. Take step using best action or 

random action 

obs _t_oh = one_hot(obs_ ,تا‎ n_obs) 

action = session.run (pred act ph, 

feed dict={obs_t_ ph: 

obs_t_oh}) [0] 

if ظ‎ 12۳00۳8۰, 1210 (1) > 

exploration probability (episode) : 
action = env.action_space.sample() 

obs tpl, reward, done, _ = 

env.step (action) 


# 5. Train model 
obs tpl oh = one hot(obs tpl, n_obs) 
q_target_val = session.run(q target, 
feed dict={ 
obs tpl ph: obs _ tpl oh 
}) 
session.run(update model, feed dict={ 
obs t_ph: obs _t_oh, 
rew_ph: reward, 
q_target_ph: q target val, 
act_ph: action 
}) 
episode_reward += reward 
obs t = obs tpl 
if done: 
rewards.append(episode_ reward) 
if episode 5 report interval == 
print report (rewards, 
episode) 
break 
print report(rewards, -1) 
if _ name == ' main ': 
main () 


python bot 4 q network.py 

سينتهي إخراجك بما يلي بالضبط: 
Output‏ 
100-ep Average: 0.11 . Best 100-ep Average: 0.11‏ 
Average: 0.05‏ 
(Episode 500)‏ 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


100-ep Average: 0.41 . Best 100-ep Average: 0.54 
Average: 0.19 
(Episode 1000) 
100-ep Average: 0.56 . Best 100-ep Average: 0.73 
Average: 0.31 
(Episode 1500) 
100-ep Average: 0.57 . Best 100-ep Average: 0.73 
Average: 0.36 
(Episode 2000) 
100-ep Average: 0.65 . Best 100-ep Average: 0.73 
Average: 0.41 
(Episode 2500) 
100-ep Average: 0.65 . Best 100-ep Average: 0.73 
Average: 0.43 

(Episode 3000) 
100-ep Average: 0.69 . Best 100-ep Average: 0.73 
Average: 0.46 

(Episode 3500) 
100-ep Average: 0.77 . Best 100-ep Average: 0.79 
Average: 0.48 

(Episode 4000) 
100-ep Average: 0.77 . Best 100-ep Average: 0.79 
Average: 0.48 
(Episode -1) 


لقد دربت oY‏ وكيل Q-Learning‏ الأول الخاص بك. للحصول على لعبة بسيطة مثل 
.FrozenLake‏ تطلب وكيل Q-Learning‏ العميق 4000 حلقة للتدريب. تخيل لو كانت 
اللعبة أكثر تعقیدا بكثير. کم عدد عينات التدريب التي تتطلب التدريب؟ كما اتضح. يمكن أن 
يطلب الوكيل ملايين العينات. يشار إلى عدد العینات المطلوبة باسم تعقيد العينة sample‏ 
«complexity‏ وهو مفهوم يتم استكشافه بمزيد من التفصيلفي القسم التالي. 
فهم موازنات التحيز -التباين 
بشكل عام. يتعارض تعقيد العينة مع تعقيد النموذجفي التعلم الآلي: 
1. تعقيد النموذج: يريد المرء نموذجًا معقدا بدرجة كافية لحل مشكلته. على سبيل المثال» 
نموذج بسيط مثل الخط ليس معقدا بدرجة كافية للتنبؤ بمسار السيارة. 
2. تعقيد العينة: قد يرغب المرءفي نموذج لا يتطلب العديد من العينات. قد يكون هذا 
بسبب محدودية وصولهم إلى البيانات المصنفة. وكمية غير كافية من قوة الحوسبة 
وذاكرة محدودة. وما إلى ذلك. 


مشاريع تعلمم الآلة: باینون 


لنفترض أن لدينا نموذجین. أحدهما بسيط والآخر معقد للغاية. لكى يحصل كلا النموذجين على 
نفس الأداء. يخبرنا التحيز_التباين أن النموذج المعقد للغاية مياد إلى مزيد من العينات 
بشكل كبير للتدريب. مثال على ذلك: يتطلب وكيل Q-Learning‏ القائم على الشبكة العصبية 
0 حلقة لحل .FrozenLake‏ تؤدي إضافة طبقة ثانية إلى وكيل الشبكة العصبية إلى مضاعفة 
عدد حلقات التدريب اللازمة أربع مرات. مع تزايد تعقيد الشبكات العصبية. ينمو هذا الانقسام 
فقط. للحفاظ على نفس معدل الخطأء تؤدي زيادة تعقيد النموذج إلى زيادة تعقيد العينة بشكل 
كبير. وبالمثل. فان تقليل تعقيد العينة يقلل من تعقيد النموذج. وبالتالي لا يمكننا تعظيم تعقيد 
النموذج وتقليل تعقيد العينة وفقا لرغبة قلوبنا. 

ومع ذلك يمكننا الاستفادة من معرفتنا بهذه الموازنة. للحصول على تفسير مرئي للرياضيات 
وراء تحلل التحيز التباين» راجع فهم موازنة التحیز- التباین. على مستوى Sle‏ فان تحلل 
التحيز التباین هو تفصيل ل "الخطأ الحقيقي' إلى عنصرين: التحيز والتباين. نشير إلى "الخطأ 
الحقيقي" على أنه الخطأ التربيعي المتوسط (MSE)‏ وهو الفرق المتوقع بين تسمیاتنا المتوقعة 
والتسميات الحقيقية. فيما يلي مخطط يوضح تغيير "الخطأ الحقيقي" مع زيادة تعقيد النموذج: 


ERROR 


MODEL COMPLEXITY 


منحنى الخطأ التربيعي المتوسط 


الخطوة 5 - بناء وكيل المربعات الصغرى ل Frozen Lake‏ 

يقة المربعات الصغرى least squares method‏ والمعروفة Cal‏ باسم الانحدار الخطي 
dinear regression‏ هي وسيلة لتحليل الانحدار تستخدم على نطاق واسعفي مجالاات 
الرياضيات وعلم البیانات.في التعلم الآليء غالبًا ما تُستخدم للعثور على النموذج الخطي الأمثل 
لمعلمتين أو مجموعتي بيانات. 
في الخطوة ۰4 قمت ببناء شبكة عصبية لحساب قيم ©. بدلاً من الشبكة العصبية» ستستخدمفي 
هذه الخطوة انحدار ريدج ridge regression‏ وهو متغير من المربعات الصغرى» لحساب هذا 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
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المتجه لقيم ©. الأمل هو أنه مع وجود نموذج غير معقد مثل المربعات الصغری. فإن حل اللعبة 
سيتطلب حلقات تدريب أقل. 
ابدأ بتكرار البرنامج النصي من الخطوة 3: 
cp bot_3 q table.py bot_5 ۷‏ 
افتح الملف الجديد: 
nano bot_5_ ۷‏ 
مرة آخری. قم بتحديث التعليق أعلى الملف الذي يصف ما سيفعله هذا السكريبت: 


/AtariBot/bot_4_q_network.py 


Bot 5 =- Build least squares gq-learning agent for 
FrozenLake 


قبل حظر الاستيراد بالقرب من الجزء العلوي من الملف. أضف عمليتي استيراد إضافيتين 
للتحقق من النوع: 

/AtariBot/bot_5_ls.py 
Pion tua import Tuple 
from typing import Callable 


from typing import List 
import gym 


في قائمة المعاملات الفائقة أضف معلمة فائقة آخری» 1 ew‏ للتحكمفي معدل تعلم دالة © 

الثانية. بالإضافة إلى ذلك. قم بتحديث عدد الحلقات إلى 5000 وعامل الخصم إلى 85 . 0. 

من خلال تغيير کل من المعلمات الفائقة discount_ factory num episodes‏ 
إلى قیم OST‏ سیتمکن الوکیل من |صدار آداء آقوی: 

/AtariBot/bot_5_ls.py 

num_episodes = 5000 

discount factor = 0.85 

learning rate = 0.9 


۷ 11 = 0.5 
report interval = 500 


مشاريع تعلم الآلة: باینون 


قبل دالة print_report‏ الخاصة بك. أضف دالة الترتيب الأعلى التالية. تقوم بإرجاع 
lambda‏ - دالة مجهولة - التي يلخص النموذج: 
/AtariBot/bot_5_ls.py‏ 


report interval = 500 


report = '100-ep Average: %.2f . Best 100-ep 
Average: %.2f . Average: 


9.222 ' ١ 
"(Episode 50( ' 


def makeQ(model: np.array) -> Callable[[np.array], 
np.array |] 2 

"" Returns a Q-function, which takes state => 
distribution over 

GCE LONG 

return lambda X: X.dot (model) 


def print report (rewards: List, episode: int): 


بعد 02160 أضف دالة آخری قم بالتهيئة initialize‏ والتي تهيئ النموذج باستخدام 
القيم الموزعة بشكل طبيعي: 
/AtariBot/bot_5_ls.py‏ 


def makeQ(model: np.array) -> Callable[[np.array]l, 
np.array]: 

"""Returns a Q-function, which takes state -> 
distribution over 

actions" 

return lambda X: X.dot (model) 


def initialize(shape: Tuple): 
"""Täitialize model" 

W = np.random.normal(0.0, 0.1, shape) 
Q = ۲2160 (W) 

return W, Q 


def print report (rewards: List, episode: int): 


الفصل السادس: التحيز التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ 
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بعد كتلة التهيئة initialize‏ أضف طريقة train‏ التي تحسب حل الشكل المغلق 

لانحدار ریدج. ثم تزن النموذج القديم بالنموذج الجديد. تقوم بإرجاع كل من النموذج ودالة Q‏ 
المستخرجة: 

/AtariBot/bot_5_ls.py 

def initialize(shape: Tuple): 


return W, Q 


def train(X: np.array, y: np.array, W: np.array) -> 
Tuple[np.array, 

Callable]: 

"""Train the model, using solution to ridge 
regression" 

I = np.eye(X.shape[1]) 

newW = np.linalg.inv(X.T.dot(xX) + 10e-4 _ 

LL) اج‎ TCG CTP) 
W = w lr  newW + (1 - wir) \* W 
Q = ۲2۵160 (W) 

return W, Q 


= 


def print report (rewards: List, episode: int): 


بعد التدریب. أضف دالة 34 & pe SeleYcone hot‏ واحد ساخن لحالاتك وإجراءاتك: 
/AtariBot/bot_5_ls.py‏ 
def train(X: np.array, y: np.array, W: np.array) ->‏ 


Tuple[np.array, 
Callable]: 


return W, Q 

def one Nout? Int, me 10C) => mp.array: 
"""Implements one-hot encoding by selecting the ith 
standard basis 


vector" wee 
return np.identity(n) [i] 


def print report (rewards: List, episode: int): 


مشاريع تعلم الآلة: باینون 


بعد ذلك. سوف تحتاج إلى تعديل منطق التدريب.في النص السابق الذي کتبته. تم تحديث جدول 
9 كل تكرار. ومع ذلك. فإن هذا السكريبت سيجمع العينات والتسميا تفي كل مرة خطوة ويدرب 
نموذجًا جديدًا کل 10 خطوات. بالإضافة إلى ذلك. بدلاً من الاحتفاظ بجدول © أو شبكة 


انتقل إلى دالة main‏ واستبدل تعريف جدول 0) np.zeros(...))‏ = ) بما يلي: 
/AtariBot/bot_5_ls.py‏ 


det NT 


rewards = [|] 


A obs, N actions = env.cbservalion space., 
env action Spacen 

W © = initialize ((n obs, A actions) 
states, labels = [], [] 


for episode in range(l, num episodes + 1): 


قم بالتمرير لأسفل قبل حلقة for‏ أسفل هذا مباشرة. أضف الأسطر التالية التي تعيد تعیین 
قوائم Labelss states‏ إذا كان هناك الكثير من المعلومات المخزنة: 


/AtariBot/bot_5_ls.py 
dee names 


for episode in range(l, num episodes + 1): 
if len(states) >= 10000: 
states, labels = [], [] 


قم بتعديل الخط مباشرة بعد هذا الخط. والذي يحدد )( state =env. reset‏ ۰ بحيث 
/AtariBot/bot_5_ls.py‏ 

Ëdr episode in range(1, num episodes + 1): 

if len(states) >= 10000: 


states, labels = [], [] 
state = one hot(env.reset(), n_obs) 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


states قبل السطر الأولفي حلقة اللعبة الرئيسية الخاصة بك. قم بتعدیل قائمة‎ 
/AtariBot/bot_5_ls.py 
for episode in range(l, num episodes + 1): 
episode reward = 0 
while True: 
812 65 ۰. 2۳006۳0 (state) 
noise = np.random.random((1, env.action_space.n)) / 
(episode\*\*2.) 

قم بتحديث حساب action‏ وتقليل احتمالية الضوضاء وتعديل تقييم دالة :Q‏ 
/AtariBot/bot_5_ls.py‏ 


while True: 
states.append (state) 


noise = np.random.random((1, n*actions)) / episode 
action = np.argmax(Q(state) + noise) 
state2, reward, done, * = env.step(action) 


أضف إصدارًا واحدا ساخنا من state2‏ وقم بتعديل استدعاء دالة GQ‏ تعريفك ل 
Otarget‏ على النحو التالى: 

/AtariBot/bot_5_Is.py 

while True: 


state2, reward, done, \ = env.step (action) 


state2 = one_hot (stated, n_obs) 
Qtarget = reward + discount factor * 


np.max(Q(state2) ) 


احذف السطر الذي یحدث ... = Q[state,action]‏ واستبدله بالأسطر التالية. 
يأخذ هذا الرمز إخراج النموذج الحالي ويقوم فقط بتحديث القيمةني هذا الإخراج الذي يتوافق 
مع الإجراء الحالي المتخذ. نتيجة لذلك. لا تتسبب قيم © للإجراءات الأخرىني الخسارة: 


/AtariBot/bot_5_ls.py 


مشاريع تعلم الآلة: بايثون 


state2 = one_hot (state2, n_obs) 

Qtarget = reward + discount factor _ 
np.max(Q(state2) ) 

label = Q(state) 

label [ation] = (1 = learning sate) _ label laction] 
+ learning rate \* 

ULargec 

labels.append (label) 


episode reward += reward 


مباشرة بعد .state = state2‏ آضف És‏ دوريًا للنموذج. 
يؤدي هذا إلى تدريب نموذجك كل 10 خطوات زمنية: 
/AtariBot/bot_5_ls.py‏ 
state = state2‏ 
if len(states) 5 10 ==‏ 
W: Q = train(np.array(states), np.array(labels), N)‏ 
if done:‏ 
تأكد من أن الكود الخاص بك يطابق ما يلى: 


/AtariBot_5_ls.py 


Bot 5 -- Build least squares gq-learning agent for 
FrozenLake 


from typing import Tuple 

from typing import Callable 

from typing import List 

import gym 

import numpy as np 

import random 

random.seed(0) # make results reproducible 
np.random.seed(0) # make results reproducible 


num_episodes = 5000 
discount factor = 0.85 
learning rate = 0.9 

Ww lr = 0.5 


report interval = 500 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


report = '100-ep Average: %.2f . Best 100-ep 
Average: %.2f . Average: 


9۶,2 ' \ 
"(Episode $d) ۲ 


def makeQ(model: np.array) -> Callable[[np.array], 
np.array]: 
"""Returns a Q-function, which takes state -> 
distribution over 
actions" 
return lambda X: X.dot (model) 


def initialize(shape: Tuple): 
۲۲۲۷ ]۳ 111211 26 model""" 
W = np.random.normal(0.0, 0.1, shape) 
Q = makeQ (W) 
return W, Q 


def train(X: np.array, y: np.array, W: np.array) -> 
Tuple[np.array, 
Callable]: 
"""Train the model, using solution to ridge 
regression" 
I = np.eye(X.shape[1]) 
newW = np.linalg.inv(X.T.dot(X) + 10e-4 * 
1( .dot (X.T.dot(y) ) 
W = w lr * newW + (1 - wir) * W 
Q = ۲02160 (W) 
return W, Q 


def one hot(i: int, n: int) -> np.array: 
"""Implements one-hot encoding by selecting 
the ith standard basis 
vector" wee 
return np.identity(n) [i] 


def print report (rewards: List, episode: int): 
"""Print rewards report for current episode 
- Average for last 100 episodes 
- Best 100-episode average across all time 
- Average for all episodes across time 


۲۲ ۲۲ ۲ 


print (report % ( 
np.mean(rewards[-100:]), 


مشاريع تعلمم الآلة: بايثون 


max ([np.mean(rewards[i:i+100]) for i in 
range (len (rewards) - 
100)]), 
np.mean (rewards), 
episode) ) 

def main(): 
env = gym.make('FrozenLake-v0O') # create the 
game 
env.seed(0) # make results reproducible 
rewards = [|] 
n_obs, n actions = env.observation space.n, 
env.action space.n 
W, Q = initialize((n_obs, n_actions) ) 
states, labels = [], [] 


for episode in range(l, num episodes + 1): 
if len(states) >= 10000: 
states, labels = [], [] 
state = one hot(env.reset(), n_obs) 
episode reward = 0 


while True: 
states.append (state) 


noise = np.random.random( (1, 
n_actions)) / episode 

action = np.argmax(Q(state) + 
noise) 


state2, reward, done, 
env.step (action) 
state2 = one hot(state2, n_obs) 


Qtarget = reward + discount factor 
* np.max(Q(stateZ2) ) 

label = Q(state) 

label[action] = (1 - learning rate) 


* label [action] + ١ 
learning rate * Qtarget 
labels.append (label) 


episode reward += reward 
state = state2 


if len(states) 5 10 == 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


WN, Q= 
train (np.array (states), 
np.array (labels), W) 


if done: 
rewards.append (episode reward 
) 

if episode 5 report interval 


print report (rewards, 


episode) 
break 
print report(rewards, -1) 
IE name == ' main ': 


main() 
بعد ذلك. احفظ الملف. واخرج من المحرن وقم بتشغيل السكريبت:‎ 
python bot_5 15 ۷ 
سينتج هذا ما يلي:‎ 


Output 

100-ep Average: 0.17 . Best 100-ep Average: 0.17 
Average: 0.09 
(Episode 500) 
100-ep Average: 0.11 . Best 100-ep Average: 0.2 
Average: 0.10 

(Episode 1000) 
100-ep Average: 0.08 . Best 100-ep Average: 0.2 
Average: 0.10 
(Episode 1500) 
100-ep Average: 0.24 . Best 100-ep Average: 0.25 
Average: 0.11 
(Episode 2000) 
100-ep Average: 0.32 . Best 100-ep Average: 0.31 
Average: 0.14 
(Episode 2500) 
100-ep Average: 0.35 . Best 100-ep Average: 0.38 
Average: 0.16 
(Episode 3000) 
100-ep Average: 0.59 . Best 100-ep Average: 0.62 
Average: 0.22 

(Episode 3500) 


مشاريع تعلم الآلة: بايثون 


100-ep Average: 0.66 . Best 100-ep Average: 0.66 
Average: 0.26 
(Episode 4000) 
100-ep Average: 0.60 . Best 100-ep Average: 0.72 
Average: 0.30 
(Episode 4500) 
100-ep Average: 0.75 . Best 100-ep Average: 0.82 
Average: 0.34 

(Episode 5000) 
100-ep Average: 0.75 . Best 100-ep Average: 0.82 
Average: 0.34 
(Episode -1) 


تذكر أنه وفقا لصفحة Gym FrozenLake‏ « فإن "حل" اللعبة يعني الوصول إلى معدل 100 
حلقة يبلغ 0.78. هنا يحقق الوكيل 0.82في المتوسط. مما يعني أنه كان قادرا على حل اللعبةفي 
0 حلقة. على الرغم من أن هذا لا يحل اللعبةفي حلقات أقل. إلا أن طريقة المربعات الصغرى 
الأساسية هذه لا تزال قادرة على حل لعبة بسيطة بنفس عدد حلقات التدريب تقريبًا. على الرغم 
من أن شبكاتك العصبية قد تزداد تعقیدا. فقد أظهرت أن النماذج البسيطة مناسبة ل 
.FrozenLake‏ 

باستخدام ذلك تكون قد استكشفت ثلاثة عوامل :Q-Learning‏ أحدها يستخدم جدول Q‏ 
والاخر يستخدم شبكة عصبية. والثالث يستخدم المربعات الصغرى. بعد ذلك» ستقوم ببناء عامل 
تعلم معزز عميق للعبة أكثر تعقیدا: -Space Invaders‏ 


الخطوة 6 - إنشاء عامل Q-Learning‏ عميق لغزاة الفضاء 
لنفترض أنك ضبطت تعقيد نموذج خوارزمية Q-Learning‏ السابقة وعينة التعقيد بشكل 
مثالي» بغض النظر عما إذاكنت قد اخترت شبكة عصبية أو طريقة المربعات الصغری. كما اتضحء 
لايزال أداء عامل Q-Learning‏ غير SUl‏ هذا ضعیفانی الألعاب الأكثر تعقیدا, حتى مع وجود 
عدد كبير بشكل خاص من حلقات التدريب. سيغطي هذا القسم طريقتين من شأنها تحسين 
الأداء ثم ستختبر وکیلا تم تدريبه باستخدام هذه الأساليب. 
تم تطوير أول وكيل للأغراض العامة قادر على تكييف سلوكه باستمرار دون أي تدخل بشري من 
قبل الباحثین‌في DeepMind‏ الذين قاموا أيضًا بتدريب وكيلهم على لعب مجموعة متنوعة من 
ألعاب Atari‏ أقرت مقالة التعلم العميق Q-Learning (DQN)‏ الأصلية ل DeepMind‏ 
مسألتين مهمتين: 

1. الحالات المترابطة: خذ حالة Glad‏ الوقت ۰0 والذي سنسميه 50. لنفترض Lal‏ قمنا 

بتحديث (50) Gay Q‏ للقواعد التي استخلصناها OW LLL‏ خذ الحالةفي الوقت 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


1 والتي نسميها 1 وقم بتحديث )81( © Gig‏ لنفس القواعد. لاحظ أن حالة اللعبة 
في الوقت 0 تشبه إلى حد كبير حالتهاني الوقت 1 .في «Space Invaders‏ على سبيل 
المثال. ریما تحركت الکائنات الفضائية بمقدار بكسل واحد لكل منهم. يقال بإيجاز 
أكبرء 50 و15 متشابهان LLU‏ وبالمثل» نتوقع Cal‏ أن تكون (50) © و(1ء) © 
متشابهة جدا. لذا فإن تحديث أحدهما يؤثر على الآخر. هذا يؤدي إلى تقلب قيم Q‏ 
حيث قد يكون تحدیثا ل GQ (S0)‏ الواقع مواجهة التحديث إلى (51) -Q‏ بشكل 
أكثر رسمية. ترتبط 50 و15. oY GE‏ دالة Q‏ حتميةء فإن (51) Q‏ مرتبطة ب (50) -Q‏ 

2. عدم استقرار دالة Q‏ تذكر أن دالة Q‏ هي النموذج الذي نقوم بتدريبه ومصدر تسمياتنا. 
لنفترض أن تسمياتنا عبارة عن قيم تم اختيارها عشواتيًا تمثل حقا التوزیم» GL‏ کل 
مرة نقوم فيها بتحديث Q‏ نقوم بتغيير,1» مما يعني أن نموذجنا يحاول معرفة هدف 
متحرك. هذه مشكلة؛ OY‏ النماذج التي نستخدمها تفترض توزيعًا GE‏ 

لمواجهة الحالات المرتبطة ودالة © غير المستقرة: 


1. يمكن للمرء الاحتفاظ بقائمة من الحالات تسمی المخزن المؤقت لاعادة التشغيل 
G-replay buffer‏ كل خطوة زمني. تقوم بإضافة حالة اللعبة التي تلاحظها إلى المخزن 
المؤقت لإعادة التشغيل هذا. يمكنك Cal‏ أخذ عينة عشوائية من الحالات من هذه 
القائمة» والتدرب على تلك الحالات. 

2 قام الفريقفي DeepMind‏ بتكرار Q(s, a)‏ .واحد یسمی(2 Q current(s,‏ > وهي 
دالة © التي تقوم بتحديثها. أنت بحاجة إلى دالة Q‏ أخرى للحالات AW‏ 
cQ target(s’, a)‏ والتي لن تقوم بتحديثها. يتم استخدام استدعاء Q targets’,‏ 
a’)‏ لانشاء تسمياتك. من خلال فصل Q current‏ عن Q target‏ واصلاح اللخيں 
يمكنك إصلاح التوزيع الذي يتم أخذ عينات من تسمياتك منه. بعد ذلك. يمكن أن 
يقضي نموذج التعلم العميق الخاص بك فترة قصيرةفي تعلم هذا التوزيع. بعد فترة من 
الوقت. تقوم بإعادة تكرار Q current‏ من أجل target‏ © جديد. 

لن تقوم بتنفیذها بنفسك» لکنك ستقوم بتحمیل نماذج مُدربة مسقا تم تدریبها باستخدام هذه 
الحلول. للقیام بذلك. أنشئ دلیلا جدیدا حیث ستخزن معلمات هذه النماذج: 


| لب 


mkdir models 


2 


ثم استخدم أداة wget‏ لتنزيل معلمات نموذج Space Invaders‏ الذي تم اختباره مسيقا: 


Wget http://models.tensorpack.com/OpenAIGym/SpaceInvaders-v0.tfmodel - 
P models 


مشاريع تعلمم الآلة: باینون 


بعد ذلك. قم بتنزيل سكريبت بايثون الذي يحدد النموذج المرتبط بالمعلمات التي قمت بتنزيلها 
للتو. لاحظ أن هذا النموذج الذي تم اختباره مسبقًا يحتوي على قيدين على المدخلات التي 
يجب وضعهافي الاعتبار: 

.84 84 يجب تصغير حجم الحالات أو تقليل حجمها إلى‎ ٠ 

e‏ یتکون الإدخال من أربع حالات مكدسة. 


سوف نتناول هذه القيود بمزيد من التفصيل فيما بعد.في الوقت الحالي. قم بتنزيل السكريبت عن 
طريق كتابة: 


wget https://github.com/alvinwan/bots-for-atarigames/ 
raw/master/src/bot_ 6 a3c.py 


ستقوم الآن بتشغيل وكيل Space Invaders‏ الذي تم اختباره مسبقاً لمعرفة كيفية أدائه. على 
عكس برامج التتبع القليلة الماضية التي استخدمناهاء ستكتب هذا النص من البداية. 


nano bot_6 dqn.py 


ابدأ هذا السكريبت باضافة تعليق رتيسى» واستيراد الأدوات المساعدة اللازمة. وبدء حلقة اللعبة 
الرئيسية: 
/AtariBot/bot_6_dqn.py‏ 


۲۲ ۷ ۲ 


Bot 6 - Fully featured deep gq-learning network. 
import eyz 

import gym 

import numpy as np 

import random 

import tensorflow as tf 

from bot 6 a3c import asc model 

def main(): 

if **name** == "**main*’*? ¢ 

main )( 


مباشرة بعد الاستيرادات الخاصة ty‏ قم بتعيين بذور عشوائية لجعل نتائجك قابلة للتكرار. 
Cal‏ حدد islas‏ فائقة num_episodes‏ والتي ستخبر السكريبت بعدد الحلقات التي سيتم 
تشغيل الوكيل من أجلها: 

/AtariBot/bot_6_dqn.py 


import tensorflow as tf 


الفصل السادس: التحيز التباين للتعلم المعزز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


from bot_6 a3c import 23۰ 1 
random.seed(0) # make results reproducible 
tt.set random seed (0) 


num episodes = 0 


def main(): 


سطرين بعد الاعلان عن episodes‏ _صناص. حدد دالة ©2051 407725 التي تختزل كل 
الصور بحجم 84 x‏ 84. ستختزل كل الصور قبل تمريرها إلى الشبكة العصبية المدربة مسبقاً 
حيث تم تدريب النموذج قبل التدريب على 84 x‏ 84 صورة: 

/AtariBot/bot_6_dqn.py 


num_episodes = 10 


def downsample(state): 
return cv2.resize(state, (84, 84), 
interpolation=cv2.INTER LINEAR) [None] 


def main(): 


قم بإنشاء بيئة اللعبةفي بداية main Ah‏ وزرع البذورفي البيئة بحيث تكون النتائج قابلة للتكرار: 
/AtariBot/bot_6_dqn.py‏ 


def main(): 


env = gym.make('SpaceInvaders-v0') # create the 
game 
env.seed(0) # make results reproducible 


مباشرة بعد بذرة البيئة» قم بتهيئة قائمة فارغة للاحتفاظ بالمکافات: 
/AtariBot/bot_6_dqn.py‏ 


def main(): 

env = gym.make('SpaceInvaders-v0')# create the gam 
env.seed(0) # make results reproducible 

rewards = [|] 


مشاريع تعلم الآلة: باینون 


قم بتهيئة النموذج الذي تم اختباره مسبقًا باستخدام معلمات النموذج التي تم اختبارها مسبقا 
التى قمت بتنزيلهافي بداية هذه الخطوة: 
/AtariBot/bot_6_dqn.py‏ 


def main(): 


env = gym.make('SpaceInvaders-v0') # create the 
game 

env.seed(0) # make results reproducible 

rewards = [|] 

model = a3c_model (load='"models/SpaceInvaders- 
v0.tfmodel') 


بعد ذلك. أضف بعض الأسطر التي تخبر السكريبت بالتكرار لعدد مرات الحلقات لحساب 
متوسط elo‏ وتهيئة مكافأة کل حلقة إلى 0. بالإضافة إلى ذلك. أضف سطرا لإعادة تعیین البيئة 
(env. reset )((‏ « وجمع الحالة الأولية الجديدةفي العملية. اختزل هذه الحالة الأولية 
باستخدام )( downsample‏ وابدأ حلقة اللعبة باستخدام حلقة while‏ 


/AtariBot/bot_6_dqn.py 


def main(): 

env = gym.make('SpaceInvaders-v0') # create the 
game 

env.seed(0) # make results reproducible 
rewards = [|] 

model = a3c*model (load='models/SpaceInvaders- 
v0.tfmodel') 

for * in range (num_episodes) : 

episode reward = 0 

states = [downsample(env.reset()) ] 

while True: 


بدلاً من قبول حالة واحدةفي كل مرةء تقبل الشبكة العصبية الجديدة أربع حالاتفي المرة الواحدة. 
نتيجة لذلك. يجب عليك الانتظار حتى تحتوي قائمة الحالات على أربع حالات على الأقل قبل 
تطبيق النموذج الذي تم اختباره مسبقا. أضف الأسطر التالية أسفل السطر قراءة While le‏ 
True:‏ .یخبر هؤلاء الوكيل أن يتخذ إجراءً Gl pte‏ إذا كان هناك أقل من أربع حالات أو أن 
يسلسل الحالات ويمررها إلى النموذج قبل التدريب إذا كان هناك أربع حالات على الأقل: 


/AtariBot/bot_6_dqn.py 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


while True: 
if len(states) < 4: 
action = env.action_space.sample() 


else: 
frames = np.concatenate(states[-4:], axis=3) 
action = np.argmax(model([frames] ) ) 


ثم اتخذ إجراءً وقم بتحديث البيانات ذات الصلة. أضف نسخة مختزلة من الحالة الملحوظة 
وقم بتحديث المكافأة لهذه الحلقة: 
/AtariBot/bot_6_dqn.py‏ 
while True:‏ 
action = np.argmax(model([frames]) )‏ 
state, reward, done, _ = env.step (action)‏ 
states. append (downsample (state) )‏ 
episode reward += reward‏ 
بعد ذلك. أضف الأسطر التالية التي تتحقق مما إذا كانت الحلقة قد تمت أم لاء وإذاكانت كذلك 
اطبع إجمالي المكافأة للحلقة وقم بتعديل قائمة جميع النتائج وكسر حلقة الوقت مبکرا: 
/AtariBot/bot_6_dqn.py‏ 
while True:‏ 
episode reward += reward‏ 


if done: 
print ('Reward: 50" % episode reward) 
rewards.append(episode_ reward) 
break 


خارج حلقات fors while‏ اطبع متوسط المكافأة. ضع هذافي نهاية دالتك main‏ 


/AtariBot/bot_6_dqn.py 

def main(): 

break 

print ('Average reward: eet" ك‎ (sum (rewards) 
len (rewards) ) ) 
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تأكد من أن ملفك يطابق ما يلى: 


/AtariBot/bot_6_dqn.py 


Bot 6 - Fully featured deep gq-learning network. 


۲۲ ۲ ۲ 


import 2 

import gym 

import numpy as np 

import random 

import tensorflow as tf 

from bot_6 a3c import a3c_ model 


random.seed(0) # make results reproducible 
tf.set_random_seed (0) 
num_episodes = 10 


def downsample(state): 
return cv2.resize(state, (84, 84), 
interpolation=cv2.INTER LINEAR) 
[None] 


def main(): 
env = gym.make('SpaceInvaders-v0') # create 
the game 
env.seed(0) # make results reproducible 
rewards = [|] 


model = a3c_model (load='models/SpaceInvaders- 
v0.tfmodel') 


for _ in range (num episodes): 
episode reward = 0 
states = [downsample(env.reset()) ] 


while True: 


if len(states) < 4: 
action = 
env.action_ space.sample )( 
else: 
frames = 


np.concatenate(states[-4:], 
axis=3) 


الفصل السادس: التحيز التباين للتعلم المعرز العميق: كيفية بناء بوت Atari J‏ 
باستخدام OpenAl Gym‏ 


action = 
np.argmax (model ([frames] ) ) 
state, reward, done, _ = 
env.step (action) 
states. append (downsample (state) ) 
episode reward += reward 
if done: 
print ('Reward: 50۲ % 
episode reward) 
rewards.append(episode reward 
) 
break 
print ('Average reward: %.2f' % (sum(rewards) / 
len (rewards) ) ) 
if _ name == ' main ': 
main () 


احفظ الملف واخرج من المحرر. بعد ذلك. قم بتشغيل السكريبت: 
python bot 6 00۳ 7‏ 
سينتهي |ٍخراجك ley‏ يلي: 
Output‏ 


Reward: 1230 
Reward: 4510 
Reward: 1860 
Reward: 2555 
Reward: 515 
Reward: 1830 
Reward: 4100 
Reward: 4350 
Reward: 1705 
Reward: 4905 
Average reward: 2756.00 


قارن هذا بالنتيجة من السيناريو الأول. حيث قمت بتشغيل وكيل عشوائی ل „Space Invaders‏ 
كان متوسط المكافأةفي هذه الحالة حوالي 150 فقط. مما يعني أن هذه ا أفضل بأكثر من 
عشرين مرة. ومع ذلك. فقد قمت بتشغيل الكود الخاص بك لثلاث حلقات فقطء (GY‏ بطيئة 
إلى حد ماء ومتوسط ثلاث حلقات ليس مقياسًا موئوقا به. تشغيل هذا على مدى 10 حلقات. 
بمتوسط 2756؛ أكثر من 100 حلقة. المتوسط حوالي 2500. فقط بهذه المعدلات يمكنك أن 
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تستنتج بشكل مريح أن وكيلك يؤدي بالفعل ترتيبًا أفضل من حيث الحجم. وأن لديك OW‏ 
وكيل يلعب دور Space Invaders‏ بشكل معقول. 

ومع ذلك. تذكر المشكلة التي أثيرتفي القسم السابق بخصوص تعقيد العينة. كما اتضح» يأخذ 
عميل Space Invaders‏ ملايين العينات للتدريب.في الواقع» طلب هذا الوكيل 24 ساعة على 
أربع وحدات معالجة رسومات Titan X‏ للتدريب حتى هذا المستوى الحالي؛ وبعبارة أخرى. 
فقد تطلب الأمر قدرًا كبيرًا من الحوسبة لتدريبها بشكل مناسب. هل يمكنك تدريب عامل مشابه 
عالی الأداء بعينات أقل بكثير؟ يجب أن تزودك الخطوات السابقة بالمعرفة الكافية لبدء استكشاف 
هذا السؤال. باستخدام نماذج أبسط بكثير وموازنات التحيز التباين » قد يكون ذلك ممكنًا. 
الاستنتاج 

في هذا البرنامج التعليمي» قمت ببناء العدید من برامج البوت للألعاب واستکشفت مفهومًا 
GEL‏ التعلم الالي یسمی التحیز- التباین. السوال التالي الطبيعي هو: هل يمكنك إنشاء بوت 
لألعاب أكثر تعقیدا مثل 2 ۲۴ ٣Sta۲؟‏ كما اتضح. هذا سوال بحث معلق. مکمل بآدوات 
مفتوحة المصدر من متعاونين عبر .Blizzards DeepMinds Google‏ إذا كانت هذه 
مشكلات تهمك. فراجع الدعوات المفتوحة للبحثفي OpenAl‏ للتعرف على المشكلات 
الحالية. 

الوجبات الرئيسية من هذا البرنامج التعليمي هي موازنة التحیز- التباين. الأمر متروك لممارس 
التعلم الالي للنظرفي تأثيرات تعقيد النموذج.في حين أنه من الممكن الاستفادة من النماذج 
المعقدة للغاية والطبقة على كميات زائدة من الحوسبة والعينات والوقت. فإن تقليل تعقيد 
النموذج يمكن أن يقلل بشكل كبير من الموارد المطلوبة. 


